专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

关于Nsight Compute中Compute Workload Analysis反映的Tenso...

GiantPandaLLM · 公众号 · 3D · 2025-08-15 23:09

主要观点总结

本文分析了L20 GPU上执行的bfloat16 Batched GEMM Kernel的性能问题，发现Roofline模型显示Kernel已达到峰值性能，但Tensor Pipe利用率异常低。通过深入研究，发现ncu在计算Tensor Pipe利用率时使用了错误的指令延迟。经过推算和实际测量，确认L20上HMMA.16816.F32.BF16指令的实际延迟，并指出ncu对新GPU的支持不完备。同时，对fp16 Batched GEMM Kernel也进行了分析。最后，总结了性能分析的经验，并提供了附录说明基于指令延迟的峰值算力推算方法。

关键观点总结

关键观点1: L20 GPU上的bfloat16 Batched GEMM Kernel性能分析

发现Roofline模型显示Kernel已接近峰值性能，但Tensor Pipe利用率异常低，只有48.46%。

关键观点2: ncu在计算Tensor Pipe利用率时使用了错误的指令延迟

通过分析和推算，确认L20上HMMA.16816.F32.BF16指令的实际延迟为32个周期，而ncu使用的是16个周期。

关键观点3: 对新GPU性能分析的建议

使用Roofline模型明确Kernel的瓶颈在哪，然后有针对性地检查Memory Workload Analysis和Compute Workload Analysis，遵循Top-Down性能分析的流程。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博