|
|
比NVIDIA Thor‑U快3.8倍,却少用一个缓存层级:理想汽车M100编排式数据流架构对AI推... NeuralTalk · 公众号 · · 昨天 · |
|
|
7.2秒传输1T参数!大规模分布式强化学习中的 P2P 权重传输 NeuralTalk · 公众号 · · 昨天 · |
|
|
从 AITER 内核到 P/D 分离,把 AMD GPU 推理优化从"算子快"推进到"系统快"的轻量... NeuralTalk · 公众号 · · 2 天前 · |
|
|
DeepStack 重写 3D AI 芯片的硅前法则:在热与带宽的无穷空间里,批次大小定义了 LLM... NeuralTalk · 公众号 · · 1 周前 · |
|
|
Google 第八代 TPU:面向智能体时代的训练与推理芯片,原生支持 JAX、MaxText、Py... NeuralTalk · 公众号 · · 2 周前 · |
|
|
不用ML,跨代际,高保真的GPU能耗建模方案Wattchmen:用微基准测试集让每一行 SASS 指... NeuralTalk · 公众号 · · 2 周前 · |
|
|
面积减少15.31% 性能提升11.28%!AutoPPA:让 LLM 从海量RTL代码归纳最优规则... NeuralTalk · 公众号 · · 2 周前 · |