|
LLM 预训练缩放性能研究:5 项实用建议驱动 350M 模型在 128 节点上的 256 卡线性扩... NeuralTalk · 公众号 · · 昨天 · |
|
嵌入式 AI 简报:华为芯片计划/英特尔18A押注/沐曦 摩尔IPO/玄戒O2/NPU设计全流程教程... NeuralTalk · 公众号 · · 4 天前 · |
|
首个硬件感知智能体 GPU Kernel 优化框架 SwizzlePerf:让 L2 命中率飙升 7... NeuralTalk · 公众号 · · 1 周前 · |
|
训练即部署!SpecForge:加速 SGLang 推测性解码训练,让16GB GPU支持70B模型... NeuralTalk · 公众号 · · 1 周前 · |
|
首个MoE-Inference-Bench发布!硬件加速技术系统性评估:FP8量化提速20%-30%... NeuralTalk · 公众号 · · 1 周前 · |
|
首个 LLM 多智能体 GPU 内核优化系统 Astra:自主优化 SGLang CUDA 内核,平... NeuralTalk · 公众号 · · 2 周前 · |
|
本周六免费活动!Chitu 首次 Meetup 国产算力生态天团集结,冲击大模型推理性能极限! NeuralTalk · 公众号 · · 2 周前 · |