专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

超越Claude 3.5和o1！8B模型靠「分层投票+测试时训练」逆袭

新智元 · 公众号 · AI · 2025-07-22 09:31

主要观点总结

本文报道了MIT研究者的新发现，即在处理复杂推理任务时，通过测试时训练的方法，大模型的回答准确率可以大幅提升。这种训练方法能够将任务分解，从而提升模型的性能。在多个基准测试集上的实验结果证明了该方法的有效性。尽管该方法需要额外的计算时间，但研究者希望通过建立持续学习的大模型来优化策略，使模型能够根据查询自动判断是否需要使用测试时训练。

关键观点总结

关键观点1: 测试时训练是一种通用的训练方法，可将单个未标记的测试实例转化为自监督学习问题。

在对测试样本进行预测之前更新模型参数，从而提升模型的性能。

关键观点2: 情境学习技术通常用于大模型训练，但逻辑和推理问题往往需要模型对问题进行拆解。

仅仅给出例子而不教推理方法是不够的。

关键观点3: 测试时训练在抽象推理数据集和BBH数据集上的性能提升显著。

在ARC数据集上，准确性从17.5%提高到45%；在BBH数据集上，从50.5%提升到57.8%。

关键观点4: 研究者通过改变示例中的问题和解决方案来创建新的数据，以扩展测试数据集的大小。

这种方法可以提高模型的性能。

关键观点5: 使用分层投票策略和测试时训练后，即使是参数较少的模型，在抽象推理问题上的性能也能显著提升。

该策略模仿了人类的思维方式，将大问题分解为数个小目标，从而提高了模型的推理能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · [LG]《Retrieve-Augmented Generati-20250804055606

昨天

爱可可-爱生活 · [LG]《TokenBlowUp: Resolving Repr-20250804061542

昨天

图灵人工智能 · 图灵奖和诺贝尔奖双料得主Hinton预言成真，美国大学生掀起本科辍学潮！月入万刀修马桶，不怕AI裁员

2 天前

爱可可-爱生活 · MIT 6.S087《Foundation Models and-20250803131917

2 天前

新机器视觉 · 同样的实验室(如浙大计算机），硕士们进了大厂拿高工资，为什么博士却要挤破头进高校？

3 天前

DearAuto · 问界新M5探店实拍，价格不变配置升级，全系标配高阶智驾

1 年前

公司法权威解读 · 股东会作出利润分配决议后股东才有权请求分配利润|公司法权威解读

10 月前

商科求职 · 深信服2025届市场岗留学生招聘

9 月前

顽主杯实盘大赛 · 高标开始批量……

8 月前

甘肃市场监管 · 3·15放映间 | 传播消费维权“好故事“传递为民服务“好声音”

4 月前