专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

CUTLASS CuTe GEMM细节分析（一）——ldmatrix的选择

GiantPandaLLM · 公众号 · 3D · 2025-07-15 00:00

主要观点总结

本文研究了在基于CUTLASS CuTe的GEMM流程中，如何根据TiledMMA和输入矩阵在Shared Memory上的Layout选择合适的Copy Operation（ldmatrix指令的封装）完成Shared Memory到Register的拷贝。文章涵盖了基本原理、ldmatrix指令的详解、输入矩阵Layout的影响以及如何选择适当的Copy_Operation等关键点。

关键观点总结

关键观点1: CUTLASS CuTe在GEMM流程中的作用及学习背景。

作者作为初学者，对CUTLASS CuTe有一定的了解，并准备写技术博客记录对一些问题分析的过程。

关键观点2: ldmatrix指令的选择依赖于两个方面。

一方面是TiledMMA中的MMA_Atom的MNK大小和PermutationMNK中包含的ValLayoutMNK信息，另一方面是Shared Memory中的输入矩阵A/B的Layout。

关键观点3: ldmatrix指令的工作原理。

ldmatrix指令可以一次性加载一个或多个8x8的子矩阵到寄存器中，加载的8x8子矩阵的个数由x1，x2，x4标识。它允许灵活的加载地址输入，并根据输入矩阵的Layout信息选择合适的Copy_Operation。

关键观点4: 输入矩阵A/B在Shared Memory中的Layout对ldmatrix指令选择的影响。

如果输入矩阵是Row-Major的，则选择不带trans的ldmatrix指令，如果是Column-Major的，则选择带trans的ldmatrix指令。CuTe的Swizzle抽象可以很好地处理这个问题，让处理Shared Memory to Registers Copy时只需关注A/B矩阵的逻辑空间排布。

关键观点5: 实验示例和代码分享。

作者提供了具体的实验示例和参考代码来验证文中的结论，包括不同ValLayoutMNK和输入矩阵Layout下的ldmatrix指令选择。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博