月亮的黑暗部分“训练”最强的特工,他赢得了
发布时间:2025-06-24 10:15
昨天,Moonzhi Dark Side发表了一个博客,讲述了一位名为Kimi-researcher的自主代理。该代理不仅仅是许多搜索和推理,在理解每个任务并访问200个URL时,平均执行23个步骤。它是在Kimi K系列模型的内部版本中构建的,并通过端到端的强化研究对其进行了充分的训练。它也是基于中国自我开发模型的少数代理商之一。 github链接:https://moonshotai.github.io/kimi-searcher/in人类的最后考试,Kimi-Researcher获得了[email protected]%Mark,该次数设定了SOTA的最新水平,并且Pass@4精度率最高40.17%。从最初的8.6%HLE得分开始,研究人员几乎完全依靠端到端的强化研究培训来提高分数为26.9%,Mariin表明了对代理商改善代理人智能的端到端研究的巨大潜力。 Kimi-Crookearcher不仅仅是许多复杂且高度挑战的实际基准。在XBE中NCH是一款新的动态专业对齐套件,旨在将AI的功能与实际生产力相结合,Kim-Researcher在Xbench-Deepsearch search子任务中平均1张@1(平均4次运行),超过了使用搜索工具的模型。 Kimi-Crookearcher在基准测试中还取得了良好的结果,例如多轮合理推理(例如帧,密封件)和真人秀信息信息(例如SimpleQA)。举一个例子。我们想找到一部外国动画电影,但我们只记得这块情节:我想找到一部关于嫁给一个强大巫师的Prinesesa的外国动画电影。我记得她被锁在塔中,等待时间结婚。当他穿过城市看人们缝这样的东西时。简而言之,有一天,许多王子带来了来自世界各地的重要礼物。他发现其中一个与当地人进行了激烈的战斗,以将宝石作为礼物。他指责他是小偷,因为他偷了圣物。rom他们。然后,一个巫师说服国王说他在撒谎,说他拥有某种恶魔,并答应“清理”他以换取与他结婚的换取。然后,巫师利用魔法将他当成成年人并带给他。他锁定在一个地牢中,但他有一个可以实现三个愿望的戒指。 Because of mAhika, she lost her will to escape, and she wasted the first two wishes on some silly things, like a piece of cloth or a bed and so on ... then she seemed to escape ... and played the wizard with one hand ... eventually she found a stone that could make water ... I remember that someone was a frog ... the whole movie took place in a world with a little post-Aapacalyptic world setting a post-Aapacalyptic setting, Background a few hundred years after the collapse古老的文明。如果有人知道这是什么电影,请告诉我。我一直在寻找这部电影。 Kimi研究者将寻找给定的模糊信息,最后识别这部电影是“公主阿莱特”,并分别查找电影和框架描述之间的字母。此外,它还可以进行Aacademic研究,法律和政策检查,临床证据审查,公司财务报告的审查等。Kimi-Gearkearcher开始逐步介绍用户,从而使Kimi中的任何主题深入综合研究。还计划开放月球的黑暗部分,以开放主要预先经验的模型的资源,而强化研究模型Kimi-Grookearch依靠接下来的几个月。对代理商加强Kimi-Greencher的端到端研究是一种自治代理,也是一种正念模型,旨在通过多步规划,推理和工具使用来解决复杂的问题。它使用三个主要工具:内部搜索中的并行实时工具;基于浏览器的基于浏览器的工具,用于互动活动。以及用于实现自动代码的编码工具。传统发展的该代理有几个基本局限性:基于工作的系统:使用基于工作流程的流来为特定代理和坐标分配职责。尽管有效,但它们依赖于语言模型的特定版本,并且在模型或环境变化时需要频繁更新,从而限制了系统的可扩展性和灵活性。通过管理微调的模仿(SFT)的研究:模仿的研究可以使人类示范组织良好的模型,但数据注释遇到困难,尤其是在具有长跨度,动态环境的代理活动中。此外,SFT数据集通常与特定版本的Oftool强烈集成,从而导致随着工具的变化,泛化能力的下降。端到端的代理增强学习(代理RL)被培训为可以以整体方式解决问题的单一模型:鉴于查询,代理将探索大量可能的技术,GE学习奖励正确的答案,并总结整个决定中的经验。与管理的微调(SFT)不同,端到端的方法自然符合长期,基于政策的推理过程,并且可以动态,以适应工具和环境的变化;它也与模块化方法不同,该方法包括计划,理解,工具使用和模型中的其他技能以及单一的研究,而无需撰写政策或工作流程模板。过去的研究(例如OpenAI的 - 深度研究)也表明了这种方法的出色表现,但它也提出了新的挑战:动态环境:即使面对两个查询,环境结果也会随着时间的推移而变化,并且代理在变化条件方面也应具有灵活性。目的是实现一般能力以进行分配变化。远程任务:研究人员可以使用可以使用可以的上下文窗口在每个轨道上执行70多个搜索查询也达到数十万个令牌。它对模型内存管理功能和长上下文处理功能的需求很高。稀缺的数据:Q&A代理的加固的高质量数据库是稀缺的。研究团队通过自动合成培训数据来解决此问题,从而在没有手动注释的情况下实现大规模研究。卓越实施:多重好奇心和频繁的工具调用会导致培训不足和使用GPU资源不足。推出效率的优化是在代理学习研究中实现可扩展和实用培训的关键。研究方法研究人员是通过研究端到端加强培训的。研究小组注意到许多工作领域的代理绩效持续改善。图2-A显示了加强研究中KEMA研究员培训的一般准确性的趋势。 pinapakfigure 2-b是模型的性能内部数据集。培训数据以解决缺乏高质量代理数据集的问题,研究团队采用了两种补充方法来建立培训语料库。首先,他们设计了一套具有挑战性的以工具为中心的活动,旨在促进使用代理工具的深入研究。这些任务是故意构建的,以调用特定的工具来解决 - 因此简单的技术将无法完成任务或完全无效。通过合并任务设计依赖性,代理不仅要学习何时调用工具,还可以学习如何在复杂的现实世界环境中使用许多工具。 (图3显示了将该训练数据称为工具的模型频率。)其次,它们计划并包括许多以旨在增强代理商的主要认知能力及其结合使用该工具的能力的中心任务。本节进一步分为以下两个类别:数学和代码推理:任务专注于逻辑推理,算法问题解决和计算以下内容。 Kimi -研究人员不仅依靠思考链来解决问题,而且还结合了解决复杂问题的工具。寻找很大的困难:这种类型的任务要求代理商在上下文限制下进行大量搜索周期,信息和推理的集成,最后得到有效的答案。Case研究表明,艰难的搜索任务驱动模型以产生更深层次的计划功能,以及更稳定的工具增强技术。为了生成大规模设置的不同提示,研究团队开发了全自动生成的数据和验证过程,可以通过非常小的干预生成大量的Q&A对,同时确保数据的差异和准确性。对于综合活动,请确保“准确的标准答案(地面真相,GT)”很重要,因此他们引入了一种强大的方法来获得GT,以确保每个QUestion配备了可靠的答案。此外,他们设计了一个严格的过滤过程,以消除歧义,复杂性或无效的问答行为。引入的通行@n检查机制可确保挑战性问题仍然存在。图4根据两个结果的结果显示了对合成任务的有效性的回顾。研究研究培训该模型主要使用增强控制算法进行训练:负示例将导致令牌下降,从而增加训练期间熵下降的风险。上下文/迭代超过限制,模型将受到两个结果的惩罚,较短的结果将对他们的更好行为获得更高的奖励。轨迹超过50次。Rolelout系统:实现具有可扩展性和类似健身房界面的完整异步推出系统。基于服务器端体系结构,系统可以协调轨迹生成,愉快的环境联系和代理的奖励计算。与同步系统相比,该设计通过删除无时间资源可显着提高运行效率。转级部分推出:在训练RL代理时,大多数任务可以在早期阶段完成,但是少数任务仍然需要大量差异。为了解决这个长期的尾巴问题,研究人员设计了一个转向级的本地播放机制。具体而言,超出时间预算的任务将保存到重播缓冲区,其余的将继续进行随后的迭代次数,并使用更新的型号权重。在优化算法中,该机制可以实现控制的显着速度(至少高1.5倍)。马拉卡斯(Malakas)沙盒环境:研究人员建造了一个 - 座的沙盒架构,该建筑在维持工作分离的同时,消除了容器之间的通信开销。基于Cubertes的混合云体系结构实现了零停机时间调度和动态资源分配。代理通过MCP(模型上下文协议)与该工具交谈,该工具支持状态会话和连接性的操作。体系结构支持多幅度的扩展,确保在生产环境中忍受罪和高度存在。研究人员指出,在学习强化过程中​​,代理商能力的出现出现,Kimi-Grookearcher与一些有可能注意的新兴能力一起出现。当面对多种资源的冲突时,研究人员可以通过迭代假设纠正和自我纠正机制来解决冲突,并逐渐减少一致,合理的结论。显示一种整洁而严格的行为模式:即使面对看似简单的问题,研究人员将在响应之前积极进行其他搜索并进行跨验证信息,反映出高度的可靠性和信息安全性的认识。有关更详细的内容,请参考原始t分机。
购买咨询电话
400-123-4567