ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

机器之心 · 公众号 · AI · 2025-07-24 12:08

主要观点总结

本文介绍了香港浸会大学可信机器学习和推理课题组提出的主动推理问题及其基准测试AR-Bench。文章概述了大语言模型在主动推理方面的挑战和不足，包括信息不完整的场景和主动获取信息的推理需求。此外，文章还介绍了AR-Bench的构成，包括新问题、新基准和新发现。通过广泛的测试实验，揭示了当前顶尖大语言模型在主动推理方面的短板，并提出了未来工作的拓展方向。最后，介绍了课题组的情况，包括研究方向、成果展示、合作机会等。

关键观点总结

关键观点1: 主动推理问题的提出与定义

文中提出了主动推理这一亟待研究的新问题，并系统定义了其相对于被动推理的核心挑战。在主动推理范式下，模型需要获取部分信息，通过与外部环境（如数据库、API或人类用户）的交互来主动提问，以获取缺失的关键信息来解决问题。

关键观点2: AR-Bench基准测试的构建

为了系统地评估和衡量大语言模型的主动推理能力，构建了AR-Bench基准测试。该测试模拟了真实世界中的信息获取场景，包括三种不同类型的任务，旨在全面刻画模型的主动推理能力。

关键观点3: 新发现和实验结果

通过对多个先进的大语言模型以及基于prompting和基于训练的推理方法的广泛测试，发现目前的语言模型和推理方法都无法有效解决AR-Bench提出的问题。实验结果表明，大语言模型的主动推理能力严重不足。

关键观点4: 课题组的介绍与合作机会

介绍了香港浸会大学可信机器学习和推理课题组的情况，包括研究方向、成果展示、合作机会等。课题组长期招收博士后研究员、博士生、研究助理等，并欢迎访问博士后研究员、博士生和研究助理的访问申请。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

宝玉xp · //@明风:4.5不是失败的模型，只是作为非推理的基座模型，它的-20250802114530

昨天

新智元 · 刚刚，谷歌奥数金牌Gemini 2.5 Deep Think发布！多智能体推理碾压Grok 4、o3

昨天

新智元 · 24岁辍学博士，小扎捧2.5亿薪酬包亲自上门抢人！AI顶薪已让NBA汗颜

昨天

量子位 · Ilya之后，两位90后撑起OpenAI核心研究

2 天前

爱可可-爱生活 · [LG]《AlphaEarth Foundations: An -20250801060947

2 天前

天天基金网 · 公募基金三季报数据榜单出炉！

9 月前

丁香医生 · 湿疹能自愈吗？

8 月前

福州新闻 · 闽都好物·万物皆可漆，这双筷子有百年祖传“强迫症”？！

4 月前

TfR1lyxxx快乐鼠鼠 · 回复@心飞扬2013: 宜联上限挺高的。//@心飞扬2013:回-20250415194147

3 月前

龙江药监 · 绥化市绥棱县市场监管局深入推进药品经营环节“清源”行动筑牢药品安全防线

1 月前