|
|
端侧 NPU 的 LLM 测试时计算扩展:硬件感知块量化与 LUT 优化实现 19.0×GEMM与 ... NeuralTalk · 公众号 · · 8 月前 · |
|
|
破解 LLM 推理非确定性核心:攻克浮点非结合性,构建端到端确定性架构 NeuralTalk · 公众号 · · 8 月前 · |
|
|
OpenAI 块稀疏权重下的卷积与 GEMM GPU Kernel:较 cuBLAS/cuSPARS... NeuralTalk · 公众号 · · 8 月前 · |
|
|
NVIDIA 技术博客:CUDA 全局内存的合并访问,如何最大化 GPU 带宽 NeuralTalk · 公众号 · · 8 月前 · |
|
|
NVIDIA 技术博客:CUDA 全局内存的合并访问,如何最大化 GPU 带宽 NeuralTalk · 公众号 · · 8 月前 · |
|
|
LLM 预训练缩放性能研究:5 项实用建议驱动 350M 模型在 128 节点上的 256 卡线性扩... NeuralTalk · 公众号 · · 9 月前 · |
|
|
嵌入式 AI 简报:华为芯片计划/英特尔18A押注/沐曦 摩尔IPO/玄戒O2/NPU设计全流程教程... NeuralTalk · 公众号 · · 9 月前 · |