
本文的第一位作者郭元(Guo Yuan)是上海Jiotong计算机科学系的第三年大学生,他的研究方向是自主代理人和代理商的安全。这项工作由上海大学和兰州技术大学共同完成。文档标题:具有新的参考点和编程系统项目主页的移动剂间概括:https://ui-nexus.github.io/paper链接链接:https://arxiv.org/abs agmodal实现了单个Agmodal屏幕的agmodal实现(例如ScreenSpot)和短链链接构成了ASSROUL任务(如ASSROUC)ASSROUD MONTRID MORTRID MORTRID TAMERID MOLIDSTRIDS,并Endrey任务。但是,真实用户的需求通常包括在复杂长度范围内的任务,例如“价格和订购任务相对于廉价平台的订购任务”,这些任务需要在多个应用程序中进行行为,收集和比较异质信息,并确定随后的操作步骤BA BA对此。当今的“新闻,摘要,注册”的任务需要在多个网页之间导航,焦躁不安的一般推理能力以及设备操作的融合文本的概括以及信息传输的及时完成。从简单而整洁到复杂,复杂和恶化的任务是从单个增长基于代理的单个增加到达AI操作系统的唯一方法。尽管当前的常规培训方法,例如环境意识,行动和短暂的调整序列,显着改善了上述原子任务的性能,但综合的长期任务已提出了新的挑战,例如对长链进度的管理,信息的收集和信息以及操作和一般思维的组合。研究人员正在研究主要的移动GUI代理系统。实验表明现有的移动GUI代理具有明显的技能当缺陷面对复杂长度范围的任务时,它们表明原子任务对复杂任务的严重概括困难。对此调查豆的响应提出:1。UI-Nexus动态评估参考:我们创建了一个可控的动态评估平台,该平台涵盖了复杂的长期任务,例如复杂的,复杂的,传输,深层分析和设计100个任务模板设计的设计,用于100个任务模板的平均值,涵盖了中文和英语的50个类别(包括本地功能应用程序应用程序和在线应用程序和在线应用程序和第三party shixt-party shixt-party shixtyparty shirdyparty shixtyparty shirdections and)。 2。多个任务编程系统的代理,我们放置了一个轻型编程框架,该框架承认说明的分布,信息的传输和过程管理。该系统不需要对基础智能模型进行修改。这使得有效访问和多次协作变得更加容易。这项工作提供了具有挑战性的测试评估和比较在长距离复杂任务下的移动代理平台上,还建立了人们期望未来的复杂和复杂的本机操作系统的原型。基于基本模型的持续改进和环境认识的移动智能体,单个屏幕的作用的实施,调整后的静态轨迹,增强的学习,功能性瓶颈,用于优化培训策略的优化训练策略,例如设备测试和测试测试的测试测试的测试测试的测试测试,诸如搜索网络网络的任务到最后。但是,实际场景中的用户说明通常包括较长的距离场景和复合依赖性。根据款项,该文档提供了三种由共同任务组成的类型:简单串联:某些原子的关节没有单位的子量。如图所示,预息配置命令是“ Instagram启用8个小时消息,并在明天早上7:00设置闹钟。”上下文发送的类型:Subtaras必须继承并使用上一个任务生成的中间结果或接口的状态,并且信息/上下文必须在以下应用程序或页面中正确使用。搜索在线气象预测并根据搜索结果发送微信消息的任务,如图所示。潜水深:这是面向上下文任务的特殊情况。该设备的控制不仅需要针对动作和信息的简单信息的推理,而且还集成了一般推理功能,以执行中间信息的详细处理和分析。如启蒙所示,当今计算机海盗的新闻摘要的任务不仅需要点击,幻灯片和其他导航歌剧Google浏览器和文档中的问题,但还需要使用一般推理特征来总结和分析当前页面的新闻内容。研究人员已经根据复杂的任务依赖性结构为常见的移动应用程序建立了代表性的试验任务,在OS地图集,一系列移动代理,M3A和其他移动GUI代理商进行了初步实验,发现常规代理在复杂岩石上的长距离任务中没有显着工作。对错误情况的详细分析表明,传统的移动代理缺乏进度和信息管理管理的有效机制,这表明典型的故障类型:发送失败的信息:代理缺乏管理和发送信息的能力,因此需要在交付的任务中随机执行需要早期信息的任务。困惑的进度管理:未完成的子订单之间反复跳跃。 UI-Nexus:综合复杂移动代理的测试参考点提议UI-Nexus为科学而全面的测试参考点和一个开发平台,用于在复杂的长距离任务中进行移动代理的性能。 Di-Nexus测试点的一般描述显示在Di-Goggenaleres描述中,UI-Nexus参考点具有以下特征:数据覆盖范围:50个应用程序(20个应用程序 + 30个应用程序 + 30中文在线和英国应用程序),5个主要应用程序场景。 100指令模板,最好的路线是14.05步,它明显高于类似的参考点。依赖性结构的三种类型:根据子Tassess依赖性进行了系统研究的三种类型的复杂任务:简单的串联,上下文转换和深度潜水。 Anclaje subcijo:为了提供可控且可扩展的测试开发环境,研究人员创建了一个本地户外娱乐室子集NES基于20个本地AndroidWorld应用程序。这组测试的任务环境可以通过DATA,ADB文件系统和工具精确配置,以允许可扩展性和测试环境控制任务指令。调整后的索引:记录极端任务的成功率,终止的原因,令牌和推理延迟的成本,并对代理商的绩效进行良好的分析。研究人员选择了代表性移动代理的五个基准进行测试。根据GUI操作,这五个代理是自动化的。 1对于特定的实现模式。精细的独特模型(Agent-A-Model):OS-ATLAS-7B-PRO和UI-TARS-7B-SFT可以通过包含单个模型来执行试剂和手机的操纵任务,这是通过在QWEN2-VL-7B基于QWEN2-VL-7B的许多GUI领域中获得的。 2。工作流构建(代理工作流):通常,它构建具有Mod DesignSular代理的工作流,该设计使用封闭的代码模型作为GPT-4O。例如,M3A是由AndroidWorld提出的移动电话代理。一旦进行了推理,A11Y树就用于提取诸如辅助输入之类的元素列表,并且响应和反射用于执行动作推断和结果反射。移动代理-V2和移动代理-E使用多个代理的协作模型,该模型由OCR和标记元素等模块进行补充,以使手机任务自动化。除了先前的基线外,本文档还提出了一个用于复合设备的操作任务的编程系统:复合。代理 - 尼克斯是否执行低订单?通过编程模块,可执行模块和过程内存之间的协作,将高阶编程分开,并在复杂范围内完成任务的编程。每个子TA完成后,编程模块将基于历史过程的信息,而先前的环境意识更新了ADP肛门任务计划和第一个子目标将用于特定实现的执行模块的浏览器/分析师/工具。这样的层次编程模型允许在订单订单执行模块下每次都有明确意图接收原子任务,从而降低了上下文过载的风险。 Agent Nexu Agent-Nexus的架构代理接收与代理的可连接访问。在此实验中,研究人员试图将UI-TARS-7B-SFT和M3A用作较低阶段执行模块的代理。实验分析:在三个测试子集中进行了原子对复杂任务的概括:本地功能应用程序(UI-Nexus-amplio),中文在线服务的应用和在线服务应用程序中,总共有100个指令的模板。主要结论如下:U-Nexus测试参考点对每个移动设备的基准提出了一个重要的挑战,每个a的任务率均小于50%绅士。基于代理的长距离复合任务的工作流的稳健性远远优于基于模型的模型,但是基于GPT-4O的工作流程带来了很高的推理成本和延迟,这限制了应用真实场景的潜力。尼克萨斯显着提高了任务末端率( +24%至 +40%),将推论之间的推断提高了约8%。研究人员为分析和体验详细的ENTOS选择了几种独立的组合和上下文转移任务,这是深入分析原子间概括的性能的主要实验结果。研究人员比较了这三个任务的成功率。 1。将复合说明直接测试到代理,并且代理任务的终止率被测试为复合原子概括的弱性能。 2。人为地包括由多个原子指令组成的说明(例如,任务的应用并保存一个名为的新任务每天重复的练习,例如任务的应用。然后打开西兰花食谱的应用,并消除炸土豆的配方。在原子化合物的概括中确定任务的终止率是强大的理论屋顶。 3。连接UI-TARS-7B-7B-STFT和M3 System.Gui ion,它需要元素,屏幕分析工具等元素的帮助,而高昂的呼叫成本限制了真实应用程序的可行性。 AS-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-- A-a-a-a-a-to-a-a-a-a-to-a-a-a-a-a-a-a-a-a--sa -A-a-a-a-a-a-a-a-a-a--tye A-a-a-a-a-a-a-a--th 3. Design of memory mechanisms It is important in the management of ranges of complex length.简单主义并不主要包括内存(例如,基于动作和当前屏幕的历史预测下一个动作的OS-ATLAS-PRO,并且不存储历史记录信息(例如移动代理-V2或移动代理代理-e。每个步骤都会主动确定内存模块中是否有信息para存储)。主动内存改善了复杂的复杂信息的复杂长距离任务的性能,但是每个步骤都确定内存存储器的内存更大。界面如下:明确计划了信息的收集和信息处理,分配的顺序是好的,并且超载是可控的,而多源信息的管理和集成进行了。系统以及长距离任务复合体。合作。