专栏名称: 腾讯技术工程
腾讯技术工程事业群官方微信公众号。腾讯前沿科技技术、产品、行业信息交流发布平台。
目录
今天看啥  ›  专栏  ›  腾讯技术工程

腾讯太极团队实现DeepSeek模型业内H20最高性能15800+ tokens/s

腾讯技术工程  · 公众号  · 程序员  · 2025-07-11 17:36
    

主要观点总结

本文主要介绍了太极AngelHCF推理团队对DeepSeek模型进行的优化工作,包括PD分离、Prefill和Decode的并行策略、多层MTP优化等,旨在提高模型的推理性能,降低成本,并分享了一些优化成果。文章还介绍了他们在多机性能优化、DeepEP优化多机通信、专家负载均衡、DP并行适配与优化等方面的实践,以及下一步的工作计划。

关键观点总结

关键观点1: 文章核心目标

通过一系列优化措施,实现DeepSeek模型的高性能推理,降低成本,提高用户体验。

关键观点2: 主要优化措施

包括PD分离、Prefill和Decode的并行策略、多层MTP优化等。

关键观点3: 优化成果

测试数据集上,QPM=212,15800+ tokens/s;采用mPnD部署测试,在有效ITL区间,PD的吞吐明显更优,大幅提升Throughput。

关键观点4: 多机性能优化方案

包括DeepEP优化多机通信、专家负载均衡、DP并行适配与优化等实践。

关键观点5: 下一步工作计划

继续探索大EP、TBO、DeepEP通信优化、全局KV Cache等方面的优化,预计性能将突破20000 tokens/s。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照