
尽管大型的多模型模型在数学和科学等结构化活动中取得了巨大的发展,但在解释视觉信息的一般情况下,它们的性能瓶颈仍然很重要。现有模型通常依赖于基于知识的模式,但缺乏加深和重新想象视觉提示的能力,从而导致在复杂情况下经常犯错。为了解决这个问题,中国科学院自动化研究所的Zidong Taichu大型模型研究中心的研究人员建议Gthinker是Gthinker,这是一种旨在实施一般多模式推理的新型多模型模型。 Gthinker的核心在于“提示引导重新思考”的创新模型,该模型提供了模型的模型在构想过程中积极证明和正确的视觉理解。在经过精心设计的培训过程的两个阶段,Gthinker比最新的O4-Mini模型挑战了M³COT综合InfereNCE基准测试并显示了许多数学识别和知识识别列表中的SOTA性能,总体上显示了有效性和能力。目前,论文,数据和模型都是开放资源。论文链接:https://arxiv.org/abs/2506.01078形式地址:https://github.com/jefferyzhan/gthinker打开存储库:模型“将视线变成一般的场景,无论是开放资源QWEN2.5-vl还是封闭的GPT-4-4-4-4-4-4-4-4-4-4-4-4-4-4-4-4-4次数,特别是在引入Mabagal思维技术(例如思维链(COT))之后,模型在数学和科学等数学的活动中的表现得到了显着增强。但是,这些进步并未完全转化为识别一般多模式方案的能力。与具有清晰答案和严格逻辑结构的数学活动不同(例如了解绘画的含义和复杂-D评估的含义)通常涉及:高视觉依赖性:答案在很大程度上取决于对许多,甚至改进,视觉提示的正确解释。复杂的推理路径:没有固定的问题解决问题,该模型需要根据特定问题轻松调整推理步骤。现有方法基于结构化的婴儿床或基于对结果的加强研究,存在明显的局限性。当他们为推理做出视觉线索时,他们经常“走在道路上”,缺乏“回头”并纠正给予偏见的机制。 Gthinker:从“思想链”到“思考链”,要打破这个瓶颈,研究团队建议Gthinker是Gthinker,其主要是推理的新模型。自由推理之后的提示。在三个阶段执行整个过程的过程:1。免费初始推理:该模型可以根据图像的问题和内容进行一系列推理,同时使用标签来标记其依赖其依赖的基本视觉线索。 2.练习:完成推理的初始原因后,玻璃镜(例如“让每个视觉提示及其在答案结束前的推理。” 3。基于视觉线索的练习:该模型单独检查所有标记的视觉提示,并检查其解释不一致,错误或删除是否正确或删除。在发现问题的情况下,模型是正确的,或者基于对线索的理解并提高了对新的了解的理解,并最终发现了该模式。上图被用作示例。e就像虾的头,而不是螃蟹的身体”和“粉末的蓝色组合更像是虾的尾巴,而不是蟹爪”,从而纠正了推理的整个道路,最后到达正确的“虾”。这种机制为gthinker提供了有效地处理歧义或误导性信息的能力,从而使阶数的序列能够进行了良好的阶段,从而有效地训练了两种阶级的训练。 Gthinker的反思设计了训练框架的两阶段。根据“视觉线索”cold start" model. As a result, a high-quality cold-start sample data set containing 7K is first constructed by "Multimodal Iterative Annotation": using the auxiliary benefits of many advanced models such as GPT-4O, O1, and O3, iteratively infers and annotates complex problems that cover the three main fields of general goals, mathematics, and agghag, generates training data containing high youonly paths. During the training period, Gthinker采用了“模式指导的选择性格式”方法,将完整的“链链”格式应用于基本模型会引起视觉误解的示例,而其余的则是标准的图形格式。 “ muling pag-isip” Batay sa Mga视觉提示,ipinakilala pa ni gthinker ang mga pamamaraan ng pag-aaral ng pampalakas batay sa mga napatuna napatunayan na gantimpala, dinisenyo ang isang mestiso na mekanismo ng gantimpala at itinayo ang mga data ng pagsasanay na multi-scene na sumasaklaw sa maraming mga uri ng pag-iintindi upang patuloy na mag-udyok sa modelo na aktibong galugarin ang iba't ibang mga task, thus realizing精神模式的跨片概括迁移。多场景数据构建:广泛收集开放的数据,并通过嵌入集群,选择一组包含大约4K多景点和多工作的研究数据来执行平衡和各种群集,以提供提高整体能力的数据保证。 DAW训练:与GRPO相比,DAPO采用了动态抽样,以确保批处理样品的有效性并应用诸如KL和剪辑之类的技术较高。它更适合长链思维和探索,因此该模型意识到在各种情况下选择最佳推理方法。混合奖励计算:对于常见类型OF任务(例如许多选择问题和数学问题,奖励都是使用准确的匹配和工具验证验证来计算的。对于常见情况下的标准公开答案问题,通过补充说 - format响应以应用准确匹配的方法,以短语或单词的形式记录模型答案,从而确保奖励信号的准确性和差异的进一步扩展 - 支持任务。在许多情况下,基准M3COT的复杂,多模式的概念,Gthinker比当前的高级源多模型理解模型和O4-Mini在测试许多情况下都要多。在一般情况下(MMSTAR,REALWORLDQA),多学科(MMMU-PRO)方案和数学基准,Gthinker的性能要比现有的高级M Modelo更好或更低,这证明了Gtinker所学到的重新智能功能并没有引起“主体性”,但它并没有引起“主观性”所有提高能力。尽管Gthinker的数据都是使用复杂的识别任务开发的,但是在此过程和数据培训之后,当前顶级的开放资源模型仍然可以通过一般指标改进。研究团队在OpenCompass封闭的多模式列表中选择了最新的三个开放资源模型,并在学术列表中对其进行了测试。结果表明,Gthinker将所有三种模型的平均绩效提高约为1%,这进一步证实了其一般方法的有效性和能力。演示