今天看啥  ›  专栏  ›  机器之心

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚...

机器之心  · 公众号  · AI  · 2025-07-05 14:00
    

主要观点总结

本文介绍了华为诺亚方舟实验室推出的全新编程基准“人类最后的编程考试”(HLCE),该基准包含了国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛世界总决赛(ICPC World Finals)中最顶尖的235道题目。文章还介绍了现有大语言模型(LLM)在HLCE上的表现,包括推理模型和非推理模型的实验结果,以及一些有趣的现象,如推理模型的优势、IOI交互式题目的难度、模型退化现象以及模型的自我认知任务。此外,文章还探讨了LLM的Test Time Scaling Law以及未来发展方向。

关键观点总结

关键观点1: 全新编程基准HLCE的介绍

包含了过去15年间全球难度最高的两道编程竞赛的顶尖题目,旨在评估大模型面对真正考验时的表现。

关键观点2: LLM在HLCE上的表现

顶级LLM在面对高难度编程题时仍有很长的路要走,推理模型表现优于非推理模型,但所有模型在IOI题目上的表现都较差。

关键观点3: 模型自我认知任务的探讨

模型的自我认知能力与其推理能力不一定同步发展,一些通用模型展现出了更强的自我认知能力。

关键观点4: Test Time Scaling Law的探讨

随着思考长度的不断延长,模型的性能在不断提升,并且远远没有达到上限,为未来模型优化提供了方向。

关键观点5: LLM与人类顶尖选手的差距

顶级LLM已经具备赢得奖牌的实力,表现达到了IOI和ICPC的银牌和金牌水平,通过更优的搜索策略和更多的计算投入,可以持续挖掘模型的潜力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照