|
|
SOLE:Softmax/LayerNorm软硬件协同优化,36倍加速与2.8+倍面效和能效比的低精... NeuralTalk · 公众号 · · 5 月前 · |
|
|
Vortex RISC-V GPU 中 Warp 级特性的硬件与软件实现 NeuralTalk · 公众号 · · 6 月前 · |
|
|
超 20 万台GPU集群的LLM稳健训练方案:ByteRobust 双平面架构实现97% ETTR,... NeuralTalk · 公众号 · · 6 月前 · |
|
|
赋能 Linux GPU 生态:NVIDIA 开源 GPU 内核模块的架构、功能与技术实现 NeuralTalk · 公众号 · · 6 月前 · |
|
|
平均性能超Triton/TVM 1.35倍!Neptune:整合调度-tile优化流水线的GPU张量... NeuralTalk · 公众号 · · 6 月前 · |
|
|
MLIR-AIR:AMD 基于空间分区与显式同步原语的开源编译器栈,融合通信-计算重叠,实现矩阵乘法... NeuralTalk · 公众号 · · 6 月前 · |