
该代理商的技术正在增长,但是许多现有的一般代理仍然依赖人为预定的工具库和工作流,这极大地限制了其创造力,可扩展性和整体功能。最近,普林斯顿大学AI实验室推出了Alita,Alita是一种遵循“最低限度的简单性是强烈的复杂性”哲学的通用代理商。随着“预定义”和“自我进化”范式化的“最小化”,代理商可能会思考,找到并创建他们独立需要的MCP工具。 Paper Title: Alita: Generalist Agent Enable Scalable Agentic Reasoning with minimal predefinition and highest self-evolution paper link: https://arxiv.org/abs/2505.20286Twitter: https://x.com/jiahaoqiu99/status/1927376487285432790Github: https://github.com/charlesq9/alitaalita目前正在Gaia的验证基准测试中,已获得75.15%通过@1和87.27%Pass@3的结果,超过了已知的代理商,例如Openai Deep Researt和Manus等跌倒,B Fall Swoop拥有B,它具有BEcome是通用代理商的新基准。 Alita还获得了72.43%的通过@1 Gaia测试点。极简主义的建筑设计,是“允许代理商独立创建MCP工具而不依赖手动预设的最大自我进化”是Alita基本设计的概念。现有的主要代理系统通常依赖大量的Mano -Man指定工具和复杂的工作流程。该方法具有三个主要缺点:有限的范围:普通代理面临的各种各样的现实任务,而预定的可能的工具是不可行的或不可行的。预定的工具很容易被盖亚(Gaia)溢出,而不是一般。创造力和灵活性是有限的:任务的困难可能超出了预定工具或工作流的能力。复杂的活动通常要求代理使用新工具创新,或以新的方式组合和使用现有工具,预定的库和工作流程限制了创造力和灵活性。适应ATION不匹配:不同工具的接口或环境可能与代理不兼容。例如,许多有用的工具没有用Python编写,因此很难(尽管并非不可能)将主要框架预先访问主要是在Python中写成的。这些挑战共同限制了现有普遍代理的创造力,可扩展性和整体能力。与更复杂的趋势相反,该团队的冲突团队认为,对于一般代理人来说,“简单是最终的复杂性”。遵循这一原则,Alita实现了测得的动态能力,增强的创造力和灵活性以及与生态系统的兼容性。因此,阿丽塔(Alita)的团队提出了两个主要的设计游行:最大程度地减少预定的:为代理提供最基本的技能,以避免为特定任务或方式设计预定的组件。最大化自我进化:独立授权代理以创建,优化ND重用MCP工具要求实现自我进化。 Partikular,Alita只有管理代理和Web代理作为主要的内部组件,以及支持自主功能扩展的少数常见模块,而无需依靠复杂的先前引入以前引入的工具库和固定工作流程。 Alita使用模型上下文协议(MCP),这是一种开放协议,可根据任务要求为代理改变代理系统生成,更改和重用MCP工具。与一般工具创建相比,MCP创建还具有更好的再利用和更容易的环境管理的好处。从manu -up -up -work工具和工作流到立即构建MCP工具的这种过渡将为开发简单和通用代理的新途径。 Alita基于“最小预定 +最大自主进化”的设计范例。它的整体结构非常简单,仅由三个主要组成部分组成:经理代理:充当中央协调员,研究任务要求,安排不同的模块和工具,并进行最终集成 - 与答案的代和产生。 Web代理:负责搜索独特的外部信息,包括开放资源代码,文档等。MCP创建组件:由三个模块组成:MCP头脑风暴,ScriptGeneratingTool和Coderunningtool。它可以进行自我评估,脚本生成和代码实施,也可以动态地生成MCP的工具并实现自我进化。在整个过程中,Alita继续创建,验证和优化新工具,以实现不断变化的智能闭环。三个主要的MCP头脑风暴模块模块:研究任务并考虑需要哪些工具。阿丽塔(Alita)的第一步是将MCP头脑风暴模块称为研究输入活动即。该模块评估当前代理是否具有完成任务所需的功能和工具:如果能够,请快速发送相应的工具;如果它消失了,则形成了“差距能力的描述”和“ MCP工具开发建议”,然后在MCP中创建新工具。生成模块:实时创建工具检查完成查找可修复性空间,Alita将启动Generasy Moduleon脚本。该模块根据管理代理提供的任务描述和工具构建建议生成了一组实现的外部MCP工具代码,并结合了Web智能机构获得的开放资源。 Alita生成的MCP工具代码非常相关且通用,并且可以直接集成到任务过程中,并再次支持后续使用。代码运行和验证模块:确保工具是有益的,并继续优化新生成的工具将首先进行T在虚拟环境中的EST。该系统将确定该工具是否满足基于输出的期望。如果该工具成功运行,则将其正式注册为可用的MCP服务,并包含在任务调用系统中;如果失败,系统将自动输入诊断processT组织,尝试调整依赖项版本,更改基本参数,甚至根据需要离开当前工具,然后转向新解决方案。此外,将详细记录每个运行过程,以支持对工具模型和进化的后续研究,该研究真正实现了“自我进化”。自助工具创建:Alita的秘密武器Alita可以独立创建和优化任务所需的工具,最后包装MCP中的新工具,这可能会在将来重复使用或其他代理系统使用。例如,用户的任务是询问“有几页要提及甲壳类动物?”如果预定的PPT处理工具仅转换文本中的所有内容,可能无法检索页面信息并回答问题。但是,A Alita将具有动态的 - 新创建一个合适的PPT处理工具,并将其作为适当的MCP封装以解决该任务。另一种情况是,用户的工作涉及在YouTube上了解视频。某些现有通用代理的预定视频评论工具只是YouTube字幕踪迹,但是某些视频理解任务需要更深入的分析,并且阅读字幕仅无法完全解决问题。 Alita可以通过框架创建MCP读取视频帧,以求解更复杂的视频理解活动 - 特定MCP活动的创建是动态组织任务困难的动态。由于他不是视频理解方面的专家,因此Alita团队无法在自动提供此解决方案之前如何实现此类工具。理解视频的元素随后在WOR中再次使用另一个团队的k是“迈向多模式的历史识别:HistBench和Histagent”(代码基础是开放资源)。参考:在通往多模式历史推理的道路上:HistBench和HistagentLink:https://arxiv.org/abs/2505.20246绩效下降:Gaia的最终结果,Gaia的新基准已经到来,Alita是最终的答案。在Gaia基准中,Alitigay!盖亚(Gaia)是评估解决AI通用助理的实际能力的基准测试,并包含450个测试问题,涵盖了不同水平的难度。 Alita在Gaia验证测试中获得了75.15%的通过@1和87.27%通过@3的准确性,临时排名所有Herthstang代理商,超过了Openai Deep Research(67.36%Pass@1)和Manus。在Mathvista的数学推理和医学识别测试中,Alita还获得了74.00%和52.00%的精确度,这比许多配备了复杂工具库的智能系统要好。这些LTS还表明,建筑简单不是绩效限制,而是激发代理商创造性行为的关键。通过强调缩小预先编写工具并增强自主进化的设计哲学,Alita成功地实现了简单性和性能的统一性。值得注意的是,盖亚身份验证列表在Alita团队发推文后的第二天被删除,Alita团队建议现在该朝HLE,Browsecomp和Xbench迈进了。 MCP多路复用:在ALITA构建过程中,代理蒸馏的新范式和自我进化,该系统动态生成一系列高质量的MCP作为中间产品,以解决任务。值得注意的是,这些MCP比完成一项任务更重要。 Alita可以在随后的任务中打电话给他们,大幅提高绩效和效率,其他代理也可以重复使用。具体而言,Alita生成的MCP工具箱具有双重好处:首先绅士约会,自动生成MCP的重新使用可能被认为是一种新的代理蒸馏机制,它比传统的蒸馏方法更低,更好。强大的代理指导弱代理:这些MCP可以由其他Mahmother代理再次使用,而Alita(而不是人类开发人员)可以通过设计适合特定任务的MCP集来通过试验和错误来大大提高其性能。在不改变基本模型调整的情况下,盖亚研究智能研究的开放式准确性从27.88%增加到33.94%,而不会改变基本模型调整,从而在所有级别的难度下都取得了不断的性能提高。基于大型模型的代理指南基于小型模型代理:这些MCP也可以由小型模型代理重复使用,并显着提高了性能。尽管在GPT-4O-MINI模型中具有较小的计算功能和较弱的推理模型,Alita生成的MCP可以显着即兴E的表现:Kapastuhan的速度为21.82%。?它增加到29.09%,3级水平的准确率增加了3次(3.85%→11.54%)。其次,自我进化启用通过@1方法实现通过@n效应:在MCP的工具连接到Alita之后,一次尝试的通过率可能会增加到估计的多次尝试。结论:阿丽塔(Alita)成功证明了阿丽塔(Alita)范式在简单设计中的未来发展,该设计导致了普通代理的发展。在代理设计中,简单性不是功能极限,而是系统演变的驱动力。当传统的解决方案陷入“扩展工具和破坏性 - 绩效”的困境时,Alita通过动态协议机制实现了积极的“减轻体系结构和增强能力”的积极循环。说我们还知道,通过继续提高编写代码的能力,并且由于主要语言模型,Alita会更强大。生成的设计未来,AL AI助手可以在没有任何已确定的工具和工作流程直接解决问题的情况下进行大量简化。取而代之的是,开发人员可能更专注于设计刺激普通代理进化的创造力和潜力的模块。尽管人工智能技术向大学发展,但包括简单设计和独立进化特征在内的这种范式无疑将是发展下一代代理商的主要技术途径 - 不仅可以通过连续的埃博鲁斯山(Edbolusyon)保持基本系统的美丽和简单性,而且还获得了几乎无尽的扩张能力。