腾讯太极团队实现DeepSeek模型业内H20最高性能15800+ tokens/s

腾讯技术工程 · 公众号 · 程序员 · 2025-07-11 17:36

主要观点总结

本文主要介绍了太极AngelHCF推理团队对DeepSeek模型进行的优化工作，包括PD分离、Prefill和Decode的并行策略、多层MTP优化等，旨在提高模型的推理性能，降低成本，并分享了一些优化成果。文章还介绍了他们在多机性能优化、DeepEP优化多机通信、专家负载均衡、DP并行适配与优化等方面的实践，以及下一步的工作计划。

关键观点总结

关键观点1: 文章核心目标

通过一系列优化措施，实现DeepSeek模型的高性能推理，降低成本，提高用户体验。

关键观点2: 主要优化措施

包括PD分离、Prefill和Decode的并行策略、多层MTP优化等。

关键观点3: 优化成果

测试数据集上，QPM=212，15800+ tokens/s；采用mPnD部署测试，在有效ITL区间，PD的吞吐明显更优，大幅提升Throughput。

关键观点4: 多机性能优化方案

包括DeepEP优化多机通信、专家负载均衡、DP并行适配与优化等实践。

关键观点5: 下一步工作计划

继续探索大EP、TBO、DeepEP通信优化、全局KV Cache等方面的优化，预计性能将突破20000 tokens/s。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

程序猿 · 野生DeepSeek火了，速度碾压官方版，权重开源

2 天前

程序猿 · 贾跃亭新车发布视频被曝车头是P的，网友：认真起来连自己也骗

2 天前

程艺Truman · 0-1真的不难，难的是1-10，10-100 7.23上线

2 天前

大淘宝技术 · 聊聊AI Coding

2 天前

深圳教师招聘帮 · 急聘！月薪8000-9500元！深圳市水田实验学校初中教师招聘公告【宝安教师招聘】

9 月前

梅斯医学 · 《柳叶刀》重磅综述：中风急救，发病24小时患者也可从血管内治疗中获益

9 月前

大众新闻-大众日报 · 航行警告！禁止驶入，实弹射击

5 月前

重庆之声 · 守护健康 | 春季，尤其是3—5月，是高血压、冠心病、心肌梗死等疾病的高发期

4 月前