|
|
NIPS'24 预测 LLM 推理延迟:基于 Roofline 驱动的 ML 方法 NeuralTalk · 公众号 · · 9 月前 · |
|
|
16 地部署超 10 万颗!Meta 第二代 AI 芯片 MTIA 2i:模型-芯片协同设计与规模化... NeuralTalk · 公众号 · · 9 月前 · |
|
|
在 RISC-V GPU 上运行 CUDA:基于 NVVM-SPIR-V 构建转换流水线与基准测试,... NeuralTalk · 公众号 · · 9 月前 · |
|
|
308个分布式训推框架bug深度剖析:DeepSpeed、Megatron-LM及Colossal-... NeuralTalk · 公众号 · · 9 月前 · |
|
|
PipeThreader:软件定义流水线驱动的 DNN 编译器,FlashAttention与Mam... NeuralTalk · 公众号 · · 9 月前 · |
|
|
基于 LLM 跨硬件GEMM优化框架 QiMeng-GEMM:自动搜索元提示组合下特定规模显著优于c... NeuralTalk · 公众号 · · 9 月前 · |
|
|
一次编译,多平台运行!GPU 二进制文件兼容性在NVIDIA、AMD、Intel 和 Tenstor... NeuralTalk · 公众号 · · 9 月前 · |
|
|
高性能 5G移动 SoC 设计:面向 PPA(性能/功耗/面积)与可制造性的 5 nm EUV Fi... NeuralTalk · 公众号 · · 9 月前 · |
|
|
吞吐量提高 70%、延迟降 53%!硬件高效注意力:解锁解码速度与性能极限!比 FlashMLA 快... NeuralTalk · 公众号 · · 10 月前 · |