主要观点总结
本文分析了L20 GPU上执行的bfloat16 Batched GEMM Kernel的性能问题,发现Roofline模型显示Kernel已达到峰值性能,但Tensor Pipe利用率异常低。通过深入研究,发现ncu在计算Tensor Pipe利用率时使用了错误的指令延迟。经过推算和实际测量,确认L20上HMMA.16816.F32.BF16指令的实际延迟,并指出ncu对新GPU的支持不完备。同时,对fp16 Batched GEMM Kernel也进行了分析。最后,总结了性能分析的经验,并提供了附录说明基于指令延迟的峰值算力推算方法。
关键观点总结
关键观点1: L20 GPU上的bfloat16 Batched GEMM Kernel性能分析
发现Roofline模型显示Kernel已接近峰值性能,但Tensor Pipe利用率异常低,只有48.46%。
关键观点2: ncu在计算Tensor Pipe利用率时使用了错误的指令延迟
通过分析和推算,确认L20上HMMA.16816.F32.BF16指令的实际延迟为32个周期,而ncu使用的是16个周期。
关键观点3: 对新GPU性能分析的建议
使用Roofline模型明确Kernel的瓶颈在哪,然后有针对性地检查Memory Workload Analysis和Compute Workload Analysis,遵循Top-Down性能分析的流程。
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。