今天看啥  ›  专栏  ›  机器之心

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

机器之心  · 公众号  · AI  · 2025-07-05 10:46
    

主要观点总结

文章报道了Grok 4和Grok 4 Code的基准测试结果疑似泄露,包括在HLE、GPQA和SWE Bench上的得分情况,并与OpenAI o3和Claude Opus 4等竞争模型进行了对比。网友对测试结果展开热议,有人认为Grok 4的HLE分数过高,可能存在问题。此外,文章还提及了Grok 4模型的其他功能以及开发进展情况。

关键观点总结

关键观点1: Grok 4和Grok 4 Code的基准测试结果泄露

Grok 4在HLE上标准得分35%,使用推理技术后提升至45%;在GPQA上得分87-88%;Grok 4 Code在SWE Bench上得分72-75%。这些得分与OpenAI o3和Claude Opus 4等模型相比,表现出竞争力。

关键观点2: 网友对测试结果的讨论与质疑

网友对Grok 4在HLE上的高分数表示关注,并展开热议。有人质疑测试结果的真实性,认为可能存在问题。也有网友关注「标准」得分,认为这是公开模型的基准,推理得分可能涉及实验性配置。

关键观点3: Grok 4模型的其他功能与开发进展

Grok 4模型支持文本模式,视觉、图像生成及其他功能即将推出。其标语为「Think Bigger and Smarter」。此外,从功能上看,Grok 4将包括函数调用、结构化输出和推理能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照