专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降 | ICML'25

新智元 · 公众号 · AI · 2025-07-20 12:49

主要观点总结

文章探讨了大型语言模型（LLM）在面对连续更新的语义信息时，无法准确提取最新信息的问题。实验显示，随着干扰信息的增加，LLM的准确率呈现对数速度下降。文章还提到了这一现象对金融、医疗等领域的影响，并指出LLM缺乏类似人类Top-Down的信息关注和处理控制能力。

关键观点总结

关键观点1: LLM在面对连续更新的语义信息时存在困难。

大模型存在记忆瓶颈，无法忽视旧记忆，区分新记忆。实验证明，随着干扰的增加，模型的正确率会急剧下降。

关键观点2: LLM的错误率遵循对数线性下降规律。

实验发现，所有主流LLM（从最新的GPT-4.1、Llama-4到Llama-3、Qwen-2.5等）都无法稳定地提取最后一个数值，错误方式呈现出明确的数学规律呈现对数下降。

关键观点3: LLM的错误类型和分布。

模型经常错误地提取了无关的上文更新值作为最终答案，这表明当前的LLM在处理此类信息流时难以有效忽略或过滤掉非目标（旧）信息。分析错误答案还显示，LLM表现出类似有限工作记忆容量的行为模式。

关键观点4: 自然语言干预和思维链模型对解决此问题的无效性。

实验尝试使用自然语言干预和思维链模型来解决这个问题，但结果并不理想。这暗示了干扰信息对模型行为的影响超越了自然语言指令所能引导或抑制的范围。

关键观点5: LLM缺乏类似人类的Top-Down信息关注和处理控制能力。

实验表明，LLM在面对需要抵抗语义相似的上下文信息干扰、精确提取数据的场景时无法稳定工作。这强烈暗示LLM目前尚不具备人类水平的Top-Down信息关注和处理控制的能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

图灵人工智能 · 图灵奖和诺贝尔奖双料得主Hinton预言成真，美国大学生掀起本科辍学潮！月入万刀修马桶，不怕AI裁员

14 小时前

宝玉xp · 回复@杨轲Blueeon:文字稿：网页链接 //@杨轲Bluee-20250801160934

2 天前

量子位 · 大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

2 天前

机器之心 · 全球首款通用AI科研智能体问世：我一个文科生用它写了份CRISPR基因编辑综述报告

2 天前

爱可可-爱生活 · AI-Researcher：革新科研自动化的全流程智能平台• 支-20250801111517

2 天前

橘猫学安全 · 干货 | vCenter 漏洞利用总结

12 月前

synbio深波 · 【免费参会】2024合成生物学与功能护肤创新发展大会

10 月前

光明日报 · 8天近10万人，这个展览为何如此火爆？

6 月前

新疆949交通广播 · 春运期间，可提前购票！购票指南→

6 月前