专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

CoT推理大溃败？哈佛华人揭秘：LLM一思考，立刻就「失智」

新智元 · 公众号 · AI · 2025-05-20 15:49

主要观点总结

本文报道了关于大语言模型使用思维链（Chain-of-Thought，CoT）推理的新的研究发现。研究发现，在需要遵守指令或格式的任务中，使用CoT推理可能会导致模型遵守指令的准确率下降。研究指出，这是因为CoT推理可能会使模型过度关注高层次内容而忽视简单约束，或者自作聪明地添加不必要的内容，从而破坏任务约束。论文还引入了一个新指标“约束注意力”来衡量模型是否关注任务中的关键限制条件，并发现使用CoT推理会导致模型在关注任务限制方面的注意力下降。基于这些发现，研究者提出了四种改进方案来缓解这个问题。

关键观点总结

关键观点1: 研究背景及目的

随着大语言模型（LLM）的普及，人们普遍认为推理能力越强，模型越好。但最新研究发现，在需要遵守指令或格式的任务中，使用思维链（CoT）推理有时会导致模型表现不佳。

关键观点2: 主要发现

使用思维链（CoT）推理时，模型可能会过度关注高层次内容而忽视简单约束，或者擅自添加不必要的内容，导致任务完成质量下降。引入“约束注意力”指标后发现，使用CoT推理的模型在关注任务限制方面的注意力下降。

关键观点3: 研究意义

这项研究为我们理解大语言模型中推理的使用提供了新的视角，并指出了存在的问题和改进方向。同时提醒开发者在使用AI时需要注意的问题，如明确提示中的规则、引入判断机制等。

关键观点4: 改进方案

基于研究发现的四种改进方案：上下文学习、自我反思、自我选择推理和分类器选择推理。其中分类器选择推理表现出最稳定和最优秀的性能提升效果。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

机器之心 · 当办公室都在咕咕嘎嘎……打字，正在变成一种古老的技艺

昨天

人工智能产业链union · 【AI加油站】第一百六十部：《开发GPT-4和ChatGPT应用》精华解读：从入门到精通的完全指南（附下载）

昨天

微软亚洲研究院 · 开源上新 | 大模型是否还在"金鱼记忆"？全新基准 RHELM 测出“真实长期记忆”天花板

2 天前

人工智能产业链union · 【报告】智驾专题一：1元/公里生死线已划定！《Robotaxi商用报告》揭秘无人驾驶出租车如何颠覆你的出行（附PDF下载）

昨天

人工智能产业链union · 【报告】OpenClawzhuanti ：重构与崛起：OpenClaw时代，中国Agent产业迎来“数字员工”大爆发（附PDF下载）

昨天

云技术 · 云服务大单：华为云301万元、火山引擎238万元、阿里云114万元（中标）

1 年前

现代快报 · 刚刚，南京地铁发布

1 年前

杭州日报 · 10秒49名列第二，35岁苏炳添赛后发声：这可能是我最后一场比赛了

1 年前

全球风口 · 谷歌掀起“香蕉革命”，有手就能PS，网友玩疯了！｜限时福利

9 月前