专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  量子位

DeepSeek突袭公布成本利润率:545%

量子位  · 公众号  · AI  · 2025-03-01 13:53
    

主要观点总结

文章介绍了DeepSeek官方的最新开源项目DeepSeek-V3/R1推理系统,包括其优化目标、主要技术和策略以及官方公布的一些统计数据。DeepSeek通过使用大规模跨节点专家并行(ExpertParallelism/EP)来提高吞吐量和降低延迟。文章还详细解释了如何通过计算通信重叠和负载均衡等技术来优化系统性能,并提供了线上系统的实际统计数据。最后,文章提到了DeepSeekV3和R1推理服务的成本利润情况以及参与评选报名的相关信息。

关键观点总结

关键观点1: DeepSeek-V3/R1推理系统的优化目标是提高吞吐量和降低延迟。

通过使用大规模跨节点专家并行(ExpertParallelism/EP)来增加batch size,从而提高GPU矩阵乘法的效率,并降低延迟。

关键观点2: DeepSeek采用多机多卡间的专家并行策略。

这种策略包括Prefill和Decode两个阶段,通过计算通信重叠来掩盖通信开销,提高整体吞吐。同时,不同阶段采用双batch重叠和流水线的方式实现计算和通信的重叠。

关键观点3: 负载均衡在DeepSeek-V3/R1推理系统中至关重要。

由于采用了大规模的并行,如果某个GPU的计算或通信负载过重,将成为性能瓶颈。因此,需要使用负载均衡技术为每个GPU分配均衡的计算负载和通信负载。

关键观点4: DeepSeekV3和R1的所有服务使用H800 GPU,并采用了与训练和一致的精度和格式。

这最大程度地保证了服务效果。

关键观点5: DeepSeekV3和R1推理服务的成本利润情况。

根据官方统计数据,假定GPU租赁成本为2美金/小时,总成本为每天87,072美金。在24小时统计时段内,如果所有tokens都按照DeepSeek R1的定价计算,理论上一天的总收入为562,027美金,成本利润率为545%。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照