专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭

新智元  · 公众号  · AI  · 2025-07-22 09:31
    

主要观点总结

本文报道了MIT研究者的新发现,即在处理复杂推理任务时,通过测试时训练的方法,大模型的回答准确率可以大幅提升。这种训练方法能够将任务分解,从而提升模型的性能。在多个基准测试集上的实验结果证明了该方法的有效性。尽管该方法需要额外的计算时间,但研究者希望通过建立持续学习的大模型来优化策略,使模型能够根据查询自动判断是否需要使用测试时训练。

关键观点总结

关键观点1: 测试时训练是一种通用的训练方法,可将单个未标记的测试实例转化为自监督学习问题。

在对测试样本进行预测之前更新模型参数,从而提升模型的性能。

关键观点2: 情境学习技术通常用于大模型训练,但逻辑和推理问题往往需要模型对问题进行拆解。

仅仅给出例子而不教推理方法是不够的。

关键观点3: 测试时训练在抽象推理数据集和BBH数据集上的性能提升显著。

在ARC数据集上,准确性从17.5%提高到45%;在BBH数据集上,从50.5%提升到57.8%。

关键观点4: 研究者通过改变示例中的问题和解决方案来创建新的数据,以扩展测试数据集的大小。

这种方法可以提高模型的性能。

关键观点5: 使用分层投票策略和测试时训练后,即使是参数较少的模型,在抽象推理问题上的性能也能显著提升。

该策略模仿了人类的思维方式,将大问题分解为数个小目标,从而提高了模型的推理能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照