专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽

量子位 · 公众号 · AI · 2025-05-25 14:07

主要观点总结

本文介绍了微软亚洲研究院张丽团队在大模型领域的创新工作，包括rStar-Math的研究历程、核心工作、以及行业反响等。

关键观点总结

关键观点1: 张丽团队将System2这个原属认知科学的词汇引入大模型领域，通过蒙特卡洛搜索算法使7B模型实现了o1级别的数学推理能力。

张丽团队通过不断探索，突破大模型智商上限，在蒙特卡洛搜索算法的应用上取得了创新成果，将System2这种高级思考模式赋予大模型，使其具备了接近OpenAI o1级别的数学推理能力。

关键观点2: rStar-Math工作引发广泛关注与讨论。

rStar-Math的发布引起了学术圈和产业界的广泛关注，人们对其在数学推理及其他任务上的表现及应用前景展开了热烈的讨论。

关键观点3: 张丽团队对于奖励模型的重视及其在该领域的研究进展。

张丽团队认为奖励模型的重要性在未来会达成共识，对于提升大模型的智商，一个优秀的过程奖励模型是必不可少的。团队在奖励模型的研究上取得了一定的进展，并将其应用于蒙特卡洛搜索算法中，取得了良好的效果。

关键观点4: rStar-Math在数学推理之外的任务泛化性讨论。

对于rStar-Math在数学推理之外的任务的泛化性，张丽团队表示它具有很强的泛化潜力，可以应用于各种场景。然而，对于简单问题，使用复杂的方法可能并不必要；而对于通用任务，蒙特卡洛搜索算法的搜索空间可能会过大，需要根据具体情况进行选择。

关键观点5: 张丽团队未来的研究方向和计划。

张丽团队下一步的研究方向包括优化奖励模型和策略模型，扩展任务领域，以及进一步提升推理能力。团队希望通过研究，让大模型具备更高级的推理方式，如主动提问等，最终实现通用的深度推理能力。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

AI寒武纪 · 吴恩达2026新课上线！3小时包教包会，零代码小白也能成为AI超级玩家

2 天前

量子位 · 不好！1930年的AI都来抢程序员饭碗了

2 天前

机器之心 · CTO不香了？百亿公司高管们为何集体转身，去Anthropic当工程师

2 天前

人工智能那点事 · 起猛了，机器人当交警了！快来解锁人机互动新体验→

2 天前

爱可可-爱生活 · 很多人用AI只是简单提问，像用搜索引擎一样，输出常常泛泛而谈，缺-20260502171711

3 天前

米筐投资 · 北上爆了！是时候解锁资产配置新战略了

1 年前

l 看齐 l · 礼、礼、礼…六重礼！中央公园荣耀加推 “美力”全开！

1 年前

甘肃省司法厅 · 【金语云课堂】《论坚持人民当家作主》

11 月前

全国网络举报 · 北京昌平区以实干举措为企业发展赋能优化网络营商环境

8 月前

发现好身材 · 看到当红网huang的价格，难怪健身圈那么多直男下海了

5 月前

她如何把“系统2”带给了大模型 ｜对话微软亚洲研究院张丽

主要观点总结

关键观点总结

关键观点1: 张丽团队将System2这个原属认知科学的词汇引入大模型领域，通过蒙特卡洛搜索算法使7B模型实现了o1级别的数学推理能力。

关键观点2: rStar-Math工作引发广泛关注与讨论。

关键观点3: 张丽团队对于奖励模型的重视及其在该领域的研究进展。

关键观点4: rStar-Math在数学推理之外的任务泛化性讨论。

关键观点5: 张丽团队未来的研究方向和计划。

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽