专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

XRSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

量子位 · 公众号 · AI · 2024-12-27 12:32

主要观点总结

DeepSeek V3模型正式发布，这是一个参数量为671B的MoE模型，在多项测评上达到开源SOTA。该模型具有优雅、高效、经济的特点，超越了Llama 3.1 405B等模型。DeepSeek V3的训练过程仅用了不到280万个GPU小时，相比之下Llama 3 405B的训练时长是3080万GPU小时。该模型的能力不仅超越了开源模型，甚至和一些顶尖闭源模型不相上下。DeepSeek V3的API价格也很具有竞争力，为使用者提供了快速、高质量、高性价比的体验。

关键观点总结

关键观点1: DeepSeek V3模型的特点和成就

DeepSeek V3是一个参数量为671B的MoE模型，具有优雅、高效、经济的特点。在多项测评上达到开源SOTA，超越了Llama 3.1 405B等模型。其训练消耗的算力仅为后者的1/11。

关键观点2: DeepSeek V3的训练成本和时间

DeepSeek V3的训练成本为557.6万美元，训练时长为3.7天。相比其他模型，其训练成本和时间更为经济。

关键观点3: DeepSeek V3的API价格和性能

DeepSeek V3的API价格具有竞争力，每百万输入tokens 0.5元（缓存命中）/ 2元（缓存未命中），每百万输出tokens 8元。其生成速度提升了3倍，每秒生成60个tokens。

关键观点4: DeepSeek V3的实测效果

DeepSeek V3在多项测试中表现优秀，包括模型能力评测和实际响应测试。其答案和分析过程准确无误，得到了用户的认可。

关键观点5: DeepSeek团队的专业知识和背景

DeepSeek团队的成就根植于多年的专业知识，这些专业知识部分被许多人忽视。团队成员之间的合作和专业知识互补使得他们能够取得如此伟大的成就。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · [CL]《Efficient Reasoning for Lar-20250809061926

2 天前

宝玉xp · 穿越百万年的技术进化图谱 Historical Tech Tre-20250808060107

3 天前

AI寒武纪 · GPT-5：没有AGI，失望和天花板，最具竞争力的可能是定价

3 天前

量子位 · GPT-5内测抢先公布：日常推理首次击败人类，编程数学科学问题能力都很强

3 天前

爱可可-爱生活 · “Deploy First, Pray Later”成为技术圈调-20250807094346

3 天前

英国大家谈 · 为什么犹太人这么厉害？

1 年前

中国青年报 · 小店之美美于文化 | 温暖的BaoBao.1107

6 月前

财宝宝 · 虹胖胖汤圆来啦！你直接说自己是女胖子不就好了，还一天到晚暗示。没-20250212193217

5 月前

金城江悠然网 · 河池一副县长接受审查调查

4 月前

上海新闻广播 · 今夜，我们读好书｜对话殷勇：车享生活，健康未来

3 月前