专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

DeepSeek-V3 + SGLang: 推理优化 (v0.4.3.post2+sgl-kerne...

GiantPandaLLM · 公众号 · 3D · 2025-04-09 12:44

主要观点总结

本文由 datacrunch 的博客作者 @Paul Chang 授权转载和翻译并发表到本公众号。文章主要介绍了DeepSeek V3与SGLang集成的技术系列的各种优化策略，旨在提高性能和效率。这些优化包括CUDA Graph执行、Torch编译、BF16/FP8 BMM kernel、NextN推测解码、MLA的数据并行注意力、重叠调度器、FlashInfer MLA优化、FP8精度改进、FP8 GEMM kernel调优、FusedMoE kernel+调优以及kernel执行优化等。这些优化以标志的形式在launch_server CLI中提供，并有助于减少kernel启动开销、提升计算图的优化，同时支持不同级别的优化机会。文章还提到了基准测试、背景信息、提交和未来的工作计划。

关键观点总结

关键观点1: CUDA Graph执行和Torch编译

通过记录和重放CUDA操作序列作为单个单元，显著减少了 kernel启动开销，并消除了推理期间每个 kernel的启动成本。同时， torch.compile 采用 kernel融合、算子消除和专门的 kernel选择来优化计算图。

关键观点2: BF16/FP8 BMM kernel

批量矩阵乘法是LLM中执行的主要工作负载。测试了具有不同fp8和数据类型组合的bmm集合的精度和延迟，并实现了基于树的推测解码，提高了接受率。

关键观点3: NextN推测解码

引入草稿模型来加速推理，并实现了基于树的推测解码，生成多个可以并行验证器LLM验证的推测分支，提高了接受率。

关键观点4: MLA的数据并行注意力

使用数据并行在MLA中分割不同的潜在状态缓存，提高了效率。

关键观点5: 重叠调度器

将CPU调度与GPU执行重叠以减少空闲时间，提高了计算效率。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博