发布日期:2025-02-24 07:22 点击次数:54
裁剪:LRST
Aria-UI通过纯视觉贯穿,兑现了GUI领导的精确定位,无需依赖后台数据,简化了部署过程;在AndroidWorld和OSWorld等泰斗基准测试中发扬出色,阔别取得第又名和第三名,展示了强硬的跨平台自动化身手。
在目下数字时间,智能助手已成为处理跨平台任务的不成或缺器用。
然则,若何将用户的当然讲话领导精确映射(grounding)到界面元素一直是该领域的中枢挑战。
传统贬责决策主要依赖调用无阻滞API、剖判HTML源码或索要后台数据,这些方法普遍存在服从低下、信息不完竣、兼容性差等显耀痛点,严重制约了自动化工夫的庸俗应用。
港大聚合Rhymes AI推出的Aria-UI,通过独创性的「纯视觉贯穿」决策绝对改变了这一近况,无需任何后台数据相沿,仅通过径直不雅察用户界面就能完成当然讲话贯穿、界面元素定位、语义对皆和任务扩展等全过程操作。这种新的设想不仅简化了部署过程,更为跨平台自动化开辟了全新范式。
Aria-UI是一款特意面向GUI智能交互的改换式大范围多模态模子(LMM),颠覆性地兑现了「看到即会操作」的当然交互范式 - 就像东谈主类用户同样,AI只需「不雅察」界面,即可贯穿并自主完成复杂的操作过程,从网页浏览、文献处理到系统建树等任务都能轻易支吾。
在评估AI自动化操作身手的泰斗基准测试中,Aria-UI贯串GPT-4o展现出越过发扬:AndroidWorld榜单名挨次一,OSWorld榜单名挨次三!
这一成绩不仅超越了业界高出的Claude 3.5 Sonnet computer-use接口,更展示了其在模拟东谈主类操作电脑方面的强硬身手。
Aria-UI秉承改换的MoE (Mixture of Experts)架构,通过智能动态激活机制,将模子参数需求压缩至仅3.9B,同期保持较好的性能。这一破损性的轻量级设想带来多重上风:
工夫亮点:
极致压缩:仅激活3.9B参数,大幅缩短推测资源需求
高效推理:优化的MoE架构确保快速反映和踏实性能
庸俗适配:相沿在资源受限场景下的生动部署
通达生态:全面开源模子权重与训导数据
部署便利:提供即用型vLLM推理剧本、相沿主流huggingface transformers框架、完竣的部署文档与示例
这种通达分享的政策,贯串方便的部署决策,让Aria-UI着实作念到「开箱即用」。
Aria-UI的破损性改换
智能领导适配引擎:Aria-UI设想了数据生成pipeline,通过自动合成海量高质料训导样本,为模子注入强硬的领导贯穿身手。这套智能领导适配引擎使模子取得了越过的泛化性能,能平缓支吾各类复杂任务场景,展现出超卓的环境顺应身手,为兑现着实的通用型AI助手奠定了坚实基础。
动态高下文感知:为兑现高精度的任务扩展,Aria-UI改换性地和会了多模态高下文贯穿机制。通过整合文本记载和图文操作历史,模子取得了强硬的场景贯穿身手,能准确把执动态变化的操作环境,将复杂领导精确转念为具体行动。
全面性能测评:Aria-UI在严格的性能评测中展现出令东谈主耀眼的工夫上风,告捷刷新了多个领域基准的记载。在纯视觉东谈主机交互基准测试中,其发扬远超现存最好视觉模子;在与需要调用AXTree等极端信息的传统决策对比中,Aria-UI仅依靠视觉贯穿就取得了显耀的性能进步。践诺测评不仅考据了纯视觉方法的可行性,更展示了其在界面自动化领域(GUI Grounding)的应用后劲。
跟着图形用户界面(GUI)在各大平台的深度普及,它果决成为数字寰球的中枢交互姿色。从开阔活命场景到专科责任领域,GUI智能体正在重塑东谈主机交互的姿色,为任务自动化开辟新寰宇。如图2所示,一个完竣的GUI智能体运作可分为两大中枢阶段:决策霸术(Planning)和视觉定位(Grounding)
在决策霸术阶段,智能体通过分析面前界面情景,制定扩展任务的具体政策;而在视觉定位阶段,则需要将霸术好的领导精确映射到本色界面元素上,确保操作的准确扩展。
尽管大范围多模态模子(LMMs)在决策霸术方面取得显耀进展,很是是在链式推理(CoT)和模子扩展等工夫的加持下,但若何兑现讲话领导到GUI元素的精确定位仍然面对要紧挑战。这些挑战主要体现在三个层面:
跨开拓兼容性:不同开拓间界面布局存在雄伟相反,要求模子具备强硬的顺应身手
领导各类性:霸术领导在体式和内容上变化莫测,磨真金不怕火模子的贯穿身手
场景复杂性:任务扩展过程充满动态变化,对模子的及时反映身手提议更高要求
这些挑战不仅股东着GUI智能体工夫的络续改换,也为打造更智能、更实用的自动化贬责决策指明了观点。
各类化领导适配:从数据到模子的全所在进步
在开发Aria-UI的过程中,谈论东谈主员久了剖析了面前GUI Grounding领域的数据逆境。传统数据集普遍存在范围受限、禁闭特有、平台单一等问题,尤其是穷乏对动态任务扩展过程中要道高下文信息的相聚。这些局限性严重制约了多模态大模子(LMM)在跨平台场景下的发扬和通用性。
针对这些挑战,Aria-UI独创性地提议了一套 数据脱手贬责决策。通过构建高度自动化的数据生成pipeline,兑现了对网页、桌面和迁徙端三大中枢平台的全面阴事。这套改换机制不仅显耀推论了训导数据的范围和各类性,更为模子在复杂领导适配方面的身手进步开辟了新路线。
多平台数据扩展:打造Web、PC与迁徙端全场景阴事
Aria-UI 设想的数据生成pipeline包含两个要道阶段:
第一阶段:精确元素形色生成
秉承顶尖多模态讲话模子(如GPT-4o或Qwen2-VL-72B)进行元素形色生成。输入数据包含:元素截图、HTML文本信息、屏幕位置坐标。
为确保形色质料,谈论东谈主员优化了视觉输入姿色:
• 寂寥截图:捕捉观点元素局部画面
• 放大视图:用红框标留意标元素在全体界面中的位置
这种方法能获取元素特征,包括视觉属性、功能特色和位置关系等。举例,一个红色的“订阅”按钮形色为:位于ChefMaria烹调频谈头部右上角的'订阅'按钮,鲜红色配景,白色笔墨搭配铃铛图标,下方走漏2.3M订阅者
第二阶段:各类化领导生成
基于第一阶段的精确形色,利用LLM生成当然、各类的操作领导。以上述订阅按钮为例:「订阅ChefMaria的频谈。」
为增强数据各类性,每个元素均生成3种不同抒发的领导。通过这套尽心设想的pipeline,告捷构建了阴事三大平台的海量高质料领导数据集,为模子训导提供了坚实基础。
网页数据(Web)
网页平台以其丰富的交互体式和动态特色,为构建GUI Grounding数据集提供了理思环境。基于最新的Common Crawl数据库,设想了以下详细化处理过程:
• 网页筛选:秉承fastText工夫进行内容质料评估,有用过滤低质料和不当网页,重心保留交互元素丰富的高价值页面;
• 元素索要:基于HTML属性进行精确识别,索要按钮、图标等高交互性元素,优先相聚复杂度高且逼近本色应用场景的界面内容;
• 跨开拓数据相聚:诓骗Playwright自动化器用,同步相聚1920×1080(设施分辨率)和2440×1600(高清分辨率)两种规格的界面数据,确保模子的庸俗适用性。
通过这套系统化的处理过程,告捷从173K个网页中索要了2M个高质料交互元素,并最终身成了 6M条设施化领导样本。这些阴事多种分辨率和界面复杂度的数据,不仅完竣展现了当代网页的特色,更为GUI任务提供了丰富而实用的训导资源。
桌面数据(Desktop)
桌面环境数据的高质料相聚一直是谈论中的要道难点。现存数据集普遍存在范围受限、相聚资本高级问题,如OmniACT数据集仅包含7.3K条东谈主工标注样本。
针对这一挑战,谈论东谈主员改换开发了基于大讲话模子(LLM)的自动化遍历Agent,兑现了桌面环境数据的高效相聚:
• 智能遍历政策: Agent通过及时剖判操作系统的可访谒性树(A11y),秉承深度优先搜索算法,系统性地探索和聘请界面中的交互元素,确保相聚的全面性;
• 情景跟踪机制:集成轻量级牵记模块,及时记载已访谒元素的情景信息,有用幸免重叠相聚,进步相聚服从;
• 多模态数据拿获:对每个交互元素进行多维度信息相聚,包括高清截图、精确坐标位置以及完竣的A11y属性形色,保证数据的完竣性。
通过这套改换的相聚系统,告捷获取了50K个高质料桌面交互元素,并借助数据处理过程最终身成了 150K条丰富各类的领导样本。这一遣散显耀推论了桌面环境GUI Grounding数据的范围,为连络谈论提供了坚实的数据基础。
迁徙数据(Mobile)
迁徙端是GUI自动化谈论的重心领域,已积存了丰富的公开数据资源。尽管目下最大的AMEX数据集包含了104K张屏幕截图和1.6M个交互元素,但其元素形色过于浅薄,穷乏与本色任务相匹配的当然讲话领导。针对这一问题,Aria-UI 对AMEX数据进行了系统性重构,通过高质料的形色和领导新生成,在保持原有范围的同期显耀进步了数据质料,为迁徙端任务提供了更有用的训导基础。
动态高下文感知机制
比拟于静态任务,动态任务的告捷扩展高度依赖于对高下文信息的准确贯穿。Aria-UI 改换性地引入了 文本-图像夹杂的操作历史记载,显耀增强了模子的高下文感知身手。在处理多法子任务时,模子不仅推敲面前元素的特征,还轮廓分析先前操作的完竣记载,从而生成更精确的操作领导。这种深度高下文感知机制使 Aria-UI 在复杂任务场景中展现出优异的准确性和踏实性。
跨平台调和贬责决策
通过上述改换设想,Aria-UI 不仅有用克服了现存数据集的局限性,还在各类化领导适配方面取得了破损性进展。岂论是网页、桌面应用依然迁徙端界面,Aria-UI 都发扬出越过的性能,为跨平台GUI自动化提供了一站式贬责决策。这些进展为将来更庸俗的任务自动化应用奠定了坚实基础。
模子框架:高效与精确的结合
Aria-UI 基于先进的MoE多模态大模子Aria构建,充分秉承和优化了其中枢上风,兑现了服从与精确度的最好均衡:
深度多模态贯穿:Aria的原生多模态架构特意设想用于处理复杂的跨模态信息,使GUI智能体好像准确贯穿和反映各类化的交互场景;
高效推测架构:收成于小巧的模子设想,Aria以仅3.9B的激活参数兑现了超越7B范围密集模子的推理速率,确保了本色应用中的快速反映身手。
破损分辨率弃世, 精确适配复杂界面
面对走漏工夫从1080p向2K及更高分辨率演进的趋势,高分辨率图像处理身手已成为GUI Grounding模子的中枢需求。
谈论东谈主员对Aria的基础架构进行了改换性更正:通过智能分块政策,将本来980×980的处理身手进步至 3920×2940,兑现了超高分辨率相沿。
为确保高分辨率场景下的精详情位,秉承了基于NaViT的优化决策,通过保持原始宽高比的智能填充工夫,有用缩短了图像变形带来的精度亏空。这些工夫改换使Aria-UI好像在各式分辨率环境下保持踏实的性能发扬。
训导与推理政策:构建动态环境顺应身手
Aria-UI秉承双阶段训导决策,系统性地建筑基础身手并强化动态顺应性:
基础身手构建阶段
在第一阶段,谈论东谈主员专注于培养模子的中枢GUI Grounding身手。模子吸收设施情势的领导输入(如「给定GUI图像,定位以下形色对应元素的像素坐标」),通过大批单步领导-坐标对的训导,学习准确输出归一化坐标值(0-1000范围内)的基础身手,为后续的动态任务处理奠定坚实基础。
动态身手增强阶段
第二阶段留神增强模子的动态任务处理身手,引入了包含纯文本历史和文本-图像夹杂历史的高下文感知训导。
为了保管模子的普适性并防卫过度拟合,在训导集会保留了20%的单步数据,确保模子在保持动态处理身手的同期不会丢失基础定位准确度。
智能推理机制
在本色推理阶段,Aria-UI将输出调和的设施化坐标([0, 1000]范围),并好像将历史操作记载算作高下文输入处理。这种设想使模子好像像进行对话同样处理一语气的交互任务,将过往的元素定位与交互记载纳入决策考量,从而在复杂的动态环境中展现出优异的顺应身手和踏实性。
凭借这套改换的工夫架构,Aria-UI在多个要道领域兑现了破损:精确相沿从1080p到4K的超高分辨率界面、生动适配各类化布局设想,同期在复杂动态环境中展现出较强的任务处理身手和环境顺应性。
Agent任务发扬
谈论东谈主员在ScreenSpot基准数据集上对Aria-UI的基础GUI Grounding身手进行了系统评估。该测试集包含六个细分场景,阴事两类界面元素和三大主流平台(迁徙端、网页、桌面端)。
每个测试样本由一张GUI截图和对应的定位领导构成,其中迁徙端和网页场景秉承2K分辨率,桌面端场景则使用540p分辨率,全面考据模子在不同应用环境下的定位准确性。
在轮廓性能测试中,Aria-UI展现出越过的定位身手,在一齐测试子集上取得了82.4%的最优平均准确率。很是是在文本元素定位任务中,模子发扬尤为凸起,超越现存决策。这些遣散充分说明了Aria-UI在跨平台场景和多元素类型中具备强硬的顺应性与泛化身手。
迁徙端离线Agent测试
谈论东谈主员对Aria-UI在迁徙端离线动态场景中的性能进行了久了评估,重心考据其为代理任务轨迹提供精确定位坐标的身手。评估秉承了三个专科测试集:AndroidControl-Low、GUI-Odyssey和AndroidControl-High。
其中,前两个测试集包含了完竣的渐渐操作领导(东谈主工标注或自动生成),而AndroidControl-High则仅提供任务观点,需要借助GPT-4o算作霸术器来分解和生成具体操作法子。这种评估框架使咱们好像全面磨练模子在职务精度和完成率两个要道野心上的发扬。
在践诺中,谈论东谈主员设想并评估了Aria-UI的两个要道变体:
Aria-UI_TH(文本动作历史):该变体在推理过程中集成了Agent的历史动作文本形色,通过高下文信息增强来优化面前元素的定位准确性。这种设想在推测服从和性能发扬间兑现了理思均衡。
Aria-UI_IH(文本-图像轮流历史):该变体在文本动作历史的基础上,极端引入了前序法子的图像信息算作接济输入。这种多模态和会政策为任务提供了更丰富的高下文感知,尤其稳健需要精确视觉贯穿的复杂场景。
践诺遣散走漏,两个变体都在AndroidControl和GUI-Odyssey测试集上取得了破损性进展,显耀超越现存基准模子。历史信息的引入(岂论是纯文本依然文本-图像结合)都有用进步了元素定位精度和任务完成质料。其中,Aria-UI_TH凭借其出色的性能与服从量度,展现出很是优异的应用价值。
网页端离线Agent测试
谈论东谈主员秉承Multimodal-Mind2Web基准对Aria-UI在网页代理任务中的性能进行了全面评估。该基准包含三个具有挑战性的测试场景:跨任务、跨网站和跨领域,旨在系统考据模子在零样本环境下的泛化身手。
践诺遣散令东谈主耀眼:Aria-UI系列模子在悉数测试场景中均显耀高出于现存基准决策,全体平均准确率达到57.5%。
其中,融入历史信息的变体发扬更为出色,Aria-UI_TH和Aria-UI_IH的准确率进一步进步至58.9%。很是值得一提的是,Aria-UI_IH在跨网站和跨领域测试中展现出越过发扬,充分说明了其在处理复杂多模态高下文方面的上风。
在线Agent评估
迁徙端与网页端性能
秉承AndroidWorld基准测试框架,在Android模拟器环境中对迁徙端代理进行了严格的在线评估。评估秉承系统情景检测机制,通过监测编造开拓的及时情景来判定任务完成情况。
同期,还引入了AndroidWorld提供的MobileMiniWob++任务集,这是一个基于经典Web代理环境MiniWob++构建的专科测试集。
AndroidWorld测试:Aria-UI展现出破损性遣散,其中Aria-UI_TH变体兑现了44.8%的任务告捷率,创造了新的性能基准。这一成绩不仅超越了现存最优决策,还优于依赖AXTree输入的非纯视觉方法(如SoM和Choice)。这充分说明了Aria-UI算作纯视觉GUI代理的越过身手,展示了其在复杂果真场景中的踏实性温顺应性。
MobileMiniWob++测试:在纯视觉输入条目下,Aria-UI的发扬显耀优于其他视觉方法和基于聘请的决策。固然在这个结构相对浅薄的测试环境中,基于GPT-4-Turbo的SoM方法取得了最好成绩,但Aria-UI仍然在纯视觉处理领域展现出高出上风。
OSWorld评估:复杂操作系统环境测试
在最具挑战性的操作系统模拟环境OSWorld中,谈论东谈主员对Aria-UI进行了久了评估。通过将Aria-UI算作中枢定位模子,并与GPT-4o协同运作,咱们完成了涵盖369个本色应用场景的轮廓测试。
践诺遣散走漏,Aria-UI创造了15.15%的平均任务告捷率,显耀高出于悉数现存决策。很是值得存眷的是,在多个高难度应用场景中,Aria-UI展现出越过性能:
VLC播放器任务:30.06%
Chrome浏览器操作:23.80%
Impress演示制作:15.32%
这些说明了Aria-UI在处理复杂GUI交互时的优胜身手。
轮廓性能回来
通过一系列严格的在线评估,Aria-UI在多个要道场景中均展现出全面的工夫上风:
迁徙端环境:优异的定位精度
网页端应用:出色的交互身手
操作系统环境:强硬的任务完成身手
这些测试遣散有劲地说明了Aria-UI算作纯视觉GUI代理的工夫先进性,展示了其在复杂多变的本色应用环境中的越过顺应身手和操作精确度。
回来
Aria-UI通过一系列严格的在线测试,在迁徙端、网页端及复杂的操作系统模拟环境中均展现出显耀的工夫上风,全面超越现存起初进贬责决策。
这些测试遣散不仅考据了Aria-UI算作纯视觉GUI代理的越过性能开云体育,更突显了其超强的环境顺应身手、精确的元素定位身手和可靠的任务完成身手。如斯全所在的优异发扬,有劲地说明了Aria-UI在处理复杂东谈主机交互任务时的工夫进修度和实用价值。