专栏名称: 一涵笔记

十年魔都金融人，为大家提供投资精准导航。投资本是门槛很高的事，很多小白却不知道自己是青铜与王者在同台竞技，所以常常亏钱。从寻找确定性理念出发，我啃食了理财、保险、可转债，上至房产、信托、私募，外至港险、港美股基金与衍生品的大杂烩知识。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

权威！Deepseek被阿里和Kimi超越？

一涵笔记 · 公众号 · · 2025-07-29 22:27

主要观点总结

本文介绍了全球开源大模型的竞争情况，通过分享两份权威榜单来解读大模型的智能表现。文章还介绍了红杉资本推出的AI基准测试xbench，以及不同模型在GPQA、LiveCodeBench和HLE等基准测试中的表现。最后，文章鼓励中国模型继续努力提升水平，并表示将持续关注和跟踪模型的表现。

介绍Kimi、阿里的Qwen3、智谱的GLM4.5等模型的竞争情况，以及它们在全球开源大模型排名中的位置。

介绍xbench的创建背景、目的、评估方法和其在AI领域的重要性。

分析阿里的Qwen3、DeepSeek，谷歌的Gemini 2.5 Pro，以及国产模型如Kimi K2等在GPQA、LiveCodeBench和HLE等测试中的表现，并对比其成本、响应速度等。

指出中国模型已经达到世界第一梯队水平，但在全球竞争中仍有提升空间。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博