专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚...

机器之心 · 公众号 · AI · 2025-07-05 14:00

主要观点总结

本文介绍了华为诺亚方舟实验室推出的全新编程基准“人类最后的编程考试”(HLCE)，该基准包含了国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛世界总决赛(ICPC World Finals)中最顶尖的235道题目。文章还介绍了现有大语言模型（LLM）在HLCE上的表现，包括推理模型和非推理模型的实验结果，以及一些有趣的现象，如推理模型的优势、IOI交互式题目的难度、模型退化现象以及模型的自我认知任务。此外，文章还探讨了LLM的Test Time Scaling Law以及未来发展方向。

关键观点总结

关键观点1: 全新编程基准HLCE的介绍

包含了过去15年间全球难度最高的两道编程竞赛的顶尖题目，旨在评估大模型面对真正考验时的表现。

关键观点2: LLM在HLCE上的表现

顶级LLM在面对高难度编程题时仍有很长的路要走，推理模型表现优于非推理模型，但所有模型在IOI题目上的表现都较差。

关键观点3: 模型自我认知任务的探讨

模型的自我认知能力与其推理能力不一定同步发展，一些通用模型展现出了更强的自我认知能力。

关键观点4: Test Time Scaling Law的探讨

随着思考长度的不断延长，模型的性能在不断提升，并且远远没有达到上限，为未来模型优化提供了方向。

关键观点5: LLM与人类顶尖选手的差距

顶级LLM已经具备赢得奖牌的实力，表现达到了IOI和ICPC的银牌和金牌水平，通过更优的搜索策略和更多的计算投入，可以持续挖掘模型的潜力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

新智元 · GPT-5波折超乎想象！奥特曼连夜回应一切：4o重新上阵，团队紧急补救

昨天

机器之心 · 挤不动的世界机器人大会上，自变量秀出了真·通用具身智能

昨天

爱可可-爱生活 · [CL]《Sculptor: Empowering LLMs w-20250808060234

2 天前

宝玉xp · 如果你想知道 GPT-5 发布会效果，可以看看 Polymark-20250808032940

2 天前

爱可可-爱生活 · 探索AI电话Agent的未来，助力自动化呼入与呼出通话：• 基于-20250807094703

3 天前

北美省钱快报 · 华裔少女失踪母亲绝望求助，家人流泪暗示孩子出走真相！3天后更可怕的一幕出现

1 年前

CACLP体外诊断资讯 · 招聘 | 圣湘生物10月岗位热招

9 月前

创业邦 · 最好的路摆在大众面前：成为中国新能源车的海外代理人

8 月前

有车以后 · 谁才是大家庭MPV新卷王？TA实力全面，面对老牌劲旅也丝毫不虚！

7 月前

文明内蒙古 · 教育部重要通知！

6 月前