|
|
深入理解LLM系统三层抽象:从核函数到系统级优化 ai算法芯片与系统 · 公众号 · · 4 月前 · |
|
|
MemorySSA:LLVM 中的内存 SSA 形式解析 ai算法芯片与系统 · 公众号 · · 4 月前 · |
|
|
CUTLASS 教程:持久核函数与 Stream-K ai算法芯片与系统 · 公众号 · · 4 月前 · |
|
|
从算法统一到硬件加速:基于正向/反向映射的ndarray统一计算架构及其对AI芯片指令设计的影响 ai算法芯片与系统 · 公众号 · · 4 月前 · |
|
|
深度解析Swin Transformer:架构与关键运算 ai算法芯片与系统 · 公众号 · · 4 月前 · |
|
|
高性能计算中算子形状(Shape)与并行化策略的动态适配:超越静态核函数设计 ai算法芯片与系统 · 公众号 · · 5 月前 · |
|
|
TensorIR 变换实战:从基础实现到高性能优化 ai算法芯片与系统 · 公众号 · · 5 月前 · |