主要观点总结
文章报道了Grok 4和Grok 4 Code的基准测试结果疑似泄露,包括在HLE、GPQA和SWE Bench上的得分情况,并与OpenAI o3和Claude Opus 4等竞争模型进行了对比。网友对测试结果展开热议,有人认为Grok 4的HLE分数过高,可能存在问题。此外,文章还提及了Grok 4模型的其他功能以及开发进展情况。
关键观点总结
关键观点1: Grok 4和Grok 4 Code的基准测试结果泄露
Grok 4在HLE上标准得分35%,使用推理技术后提升至45%;在GPQA上得分87-88%;Grok 4 Code在SWE Bench上得分72-75%。这些得分与OpenAI o3和Claude Opus 4等模型相比,表现出竞争力。
关键观点2: 网友对测试结果的讨论与质疑
网友对Grok 4在HLE上的高分数表示关注,并展开热议。有人质疑测试结果的真实性,认为可能存在问题。也有网友关注「标准」得分,认为这是公开模型的基准,推理得分可能涉及实验性配置。
关键观点3: Grok 4模型的其他功能与开发进展
Grok 4模型支持文本模式,视觉、图像生成及其他功能即将推出。其标语为「Think Bigger and Smarter」。此外,从功能上看,Grok 4将包括函数调用、结构化输出和推理能力。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。