|
|
MultiKernelBench:首个覆盖英伟达GPU、华为NPU、谷歌TPU的Kernel生成基准... NeuralTalk · 公众号 · · 9 月前 · |
|
|
HotChips 2025 从摩尔定律到巨型内核:GPU 上机器学习系统优化的十年跃迁,Zhihao... NeuralTalk · 公众号 · · 10 月前 · |
|
|
从1B到7B参数15个开源模型全面评估SLM-Bench:4 种硬件配置,构建小型语言模型推理性能-... NeuralTalk · 公众号 · · 10 月前 · |
|
|
CUDA Kernel 自动生成新范式!多轮RL+反馈迭代方案 Kevin 让生成速度超o4-min... NeuralTalk · 公众号 · · 10 月前 · |
|
|
剖析RISC-V不同平台性能:PMU剖析与基于LLVM硬件无关Roofline,分析SiFive、平... NeuralTalk · 公众号 · · 10 月前 · |
|
|
为 TinyAI 打造 RISC-V 架构高性能 GPU 方案 e-GPU:28mW功耗内实现 3.... NeuralTalk · 公众号 · · 10 月前 · |
|
|
SGEMM-cube:昇腾910A用FP16 Cube单元模拟 FP32 GEMM 实现 22 位尾... NeuralTalk · 公众号 · · 10 月前 · |