专栏名称: 解谜局

用于观测和导航生活的工具

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

天津广播 · 刚刚 | 理想汽车致歉！ · 昨天

农视网 · 遭遇山体滑坡或泥石流如何应对？这份指南请收好 · 2 天前

大张江生活圈 · 港大张江校区启动装修，10月开放申请，学费3 ... · 2 天前

众视AsiaOTT · 破万！《哪吒2》成爱奇艺平台首部内容热度值破万电影 · 2 天前

中新经纬 · 上市一周，理想i8大动作！ · 2 天前

今天看啥 › 专栏 › 解谜局

6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底

解谜局 · 公众号 · 科技自媒体 · 2025-06-29 12:25

主要观点总结

本文报道了大模型参与高考数学测试的情况。包括测试方法、评分标准、参与测试的大模型及其表现。文章还分析了大模型在数学推理方面的进步和存在的问题。

关键观点总结

关键观点1: 测试方法与评分标准

采用了高考数学题作为测试题目，包括单选题、多选题和填空题。评分方法依照高考判分原则，对模型的表现进行公正评价。

关键观点2: 参与测试的大模型

测试了包括字节的豆包、深度求索的DeepSeek、阿里的通义、腾讯的元宝（T1）、百度的文心 X1 Turbo以及踢馆选手OpenAI的o3等六款大模型。

关键观点3: 大模型的数学推理能力表现

除了o3模型外，其他模型都突破及格线，其中豆包和元宝表现最为出色。大模型的推理能力、反思能力和解析步骤的完善性都有明显提高。

关键观点4: 大模型存在的问题

大模型在计算细节、公式与图形处理能力、逻辑推理链条的自洽性、对题目条件的敏感度以及“无提示答题”能力等方面还存在不足。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

天津广播 · 刚刚 | 理想汽车致歉！

昨天

农视网 · 遭遇山体滑坡或泥石流如何应对？这份指南请收好

2 天前

大张江生活圈 · 港大张江校区启动装修，10月开放申请，学费32万港币！

2 天前

众视AsiaOTT · 破万！《哪吒2》成爱奇艺平台首部内容热度值破万电影

2 天前

中新经纬 · 上市一周，理想i8大动作！

2 天前

大白话时事 · 撕裂的认知

10 月前

爱平度 · 最高6000元！青岛将给这些人发放1500万元补贴→

4 月前

@卢伟冰(微博搜索) · @卢伟冰(微博搜索)-20250323-1

4 月前

沧海九粟 · 🚂 Refly 应用模板：AI 生成自媒体封面 🍠

4 月前

网信河北 · 河北发布特色产业集群“共享智造”工作指南，六大共享路径促进集群转型升级

2 月前