刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

机器之心 · 公众号 · AI · 2025-07-05 10:46

主要观点总结

文章报道了Grok 4和Grok 4 Code的基准测试结果疑似泄露，包括在HLE、GPQA和SWE Bench上的得分情况，并与OpenAI o3和Claude Opus 4等竞争模型进行了对比。网友对测试结果展开热议，有人认为Grok 4的HLE分数过高，可能存在问题。此外，文章还提及了Grok 4模型的其他功能以及开发进展情况。

关键观点总结

关键观点1: Grok 4和Grok 4 Code的基准测试结果泄露

Grok 4在HLE上标准得分35%，使用推理技术后提升至45%；在GPQA上得分87-88%；Grok 4 Code在SWE Bench上得分72-75%。这些得分与OpenAI o3和Claude Opus 4等模型相比，表现出竞争力。

关键观点2: 网友对测试结果的讨论与质疑

网友对Grok 4在HLE上的高分数表示关注，并展开热议。有人质疑测试结果的真实性，认为可能存在问题。也有网友关注「标准」得分，认为这是公开模型的基准，推理得分可能涉及实验性配置。

关键观点3: Grok 4模型的其他功能与开发进展

Grok 4模型支持文本模式，视觉、图像生成及其他功能即将推出。其标语为「Think Bigger and Smarter」。此外，从功能上看，Grok 4将包括函数调用、结构化输出和推理能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

新机器视觉 · 基于人工智能的闸机人脸识别门禁系统

11 小时前

量子位 · 4个月，创建20万个应用，这是背后的产品｜对话百度秒哒

19 小时前

Z Finance · 深度｜a16z合伙人：AI市场爆发期的“品牌红利”正在制造不公平优势，但长期竞争重新回归产品本质

23 小时前

宝玉xp · 来自 Windsurf 对 GPT-5 的评测，略好于 Clau-20250808060644

2 天前

AI寒武纪 · GPT-5：没有AGI，失望和天花板，最具竞争力的可能是定价

2 天前

包头新闻网 · 明日开始！包头学生注意

7 月前

伯虎财经 · 有些事只能微信做

6 月前

魔搭ModelScope社区 · 通义万相2.1首尾帧模型开源！细节真实生动+过渡丝滑，指令遵循表现出色！

3 月前

INTERNATIONAL IDEAL 筑梦求职 · 高校战绩 | Cornell University的留学生，都收到了哪些名企的Offer？

1 月前