专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
今天看啥  ›  专栏  ›  DeepTech深科技

几位00后推出新编程基准测试,大模型全部得了0分

DeepTech深科技  · 公众号  · 科技媒体  · 2025-06-19 12:12
    

主要观点总结

一群年轻的研究者推出了LiveCodeBench Pro基准测试,以评估大语言模型在编程竞赛中的表现。测试结果显示,包括OpenAI的o3模型在内的所有大语言模型在困难级别的编程问题上得了0分。研究团队通过创新性地按认知重点分类编程问题,深入理解了模型的能力边界。测试还发现,模型在算法设计和问题理解上存在根本性缺陷,而且在某些特定类型的问题上表现较差。尽管大语言模型在代码生成和简单编程任务上表现出色,但在需要深度算法思维的复杂问题上仍有不足。

关键观点总结

关键观点1: LiveCodeBench Pro基准测试的结果令人大跌眼镜,所有大语言模型在困难编程问题上得0分。

包括OpenAI的o3-high和Gemini 2.5 Pro在内的大语言模型在LiveCodeBench Pro测试中表现不佳,得分极低。

关键观点2: 研究团队通过按认知重点分类编程问题,发现了模型在不同类型问题上的表现差异。

模型在知识密集型问题上表现相对较好,但在逻辑密集型问题和观察密集型问题上表现较差。

关键观点3: 模型在算法设计和问题理解上存在根本性缺陷。

模型在面对需要深度算法思维的复杂问题时,如博弈论、贪心算法、构造类问题等,表现较差。

关键观点4: 推理功能在某些问题上带来了显著提升,但在某些特定类型的问题上对模型的帮助微乎其微。

推理功能在组合数学问题上带来了最大提升,但在观察密集型问题上帮助有限。

关键观点5: 多次尝试同一问题可以显著提升模型的表现。

使用pass@k评估方法,模型在多次尝试后可以取得更好的结果,尤其是在观察密集型问题上。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照