专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25

新智元  · 公众号  · AI  · 2025-07-20 12:49
    

主要观点总结

文章探讨了大型语言模型(LLM)在面对连续更新的语义信息时,无法准确提取最新信息的问题。实验显示,随着干扰信息的增加,LLM的准确率呈现对数速度下降。文章还提到了这一现象对金融、医疗等领域的影响,并指出LLM缺乏类似人类Top-Down的信息关注和处理控制能力。

关键观点总结

关键观点1: LLM在面对连续更新的语义信息时存在困难。

大模型存在记忆瓶颈,无法忽视旧记忆,区分新记忆。实验证明,随着干扰的增加,模型的正确率会急剧下降。

关键观点2: LLM的错误率遵循对数线性下降规律。

实验发现,所有主流LLM(从最新的GPT-4.1、Llama-4到Llama-3、Qwen-2.5等)都无法稳定地提取最后一个数值,错误方式呈现出明确的数学规律呈现对数下降。

关键观点3: LLM的错误类型和分布。

模型经常错误地提取了无关的上文更新值作为最终答案,这表明当前的LLM在处理此类信息流时难以有效忽略或过滤掉非目标(旧)信息。分析错误答案还显示,LLM表现出类似有限工作记忆容量的行为模式。

关键观点4: 自然语言干预和思维链模型对解决此问题的无效性。

实验尝试使用自然语言干预和思维链模型来解决这个问题,但结果并不理想。这暗示了干扰信息对模型行为的影响超越了自然语言指令所能引导或抑制的范围。

关键观点5: LLM缺乏类似人类的Top-Down信息关注和处理控制能力。

实验表明,LLM在面对需要抵抗语义相似的上下文信息干扰、精确提取数据的场景时无法稳定工作。这强烈暗示LLM目前尚不具备人类水平的Top-Down信息关注和处理控制的能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照