|
|
首个硬件感知智能体 GPU Kernel 优化框架 SwizzlePerf:让 L2 命中率飙升 7... NeuralTalk · 公众号 · · 9 月前 · |
|
|
训练即部署!SpecForge:加速 SGLang 推测性解码训练,让16GB GPU支持70B模型... NeuralTalk · 公众号 · · 9 月前 · |
|
|
首个MoE-Inference-Bench发布!硬件加速技术系统性评估:FP8量化提速20%-30%... NeuralTalk · 公众号 · · 9 月前 · |
|
|
首个 LLM 多智能体 GPU 内核优化系统 Astra:自主优化 SGLang CUDA 内核,平... NeuralTalk · 公众号 · · 9 月前 · |
|
|
本周六免费活动!Chitu 首次 Meetup 国产算力生态天团集结,冲击大模型推理性能极限! NeuralTalk · 公众号 · · 9 月前 · |
|
|
NPUEval:评估AMD硬件LLM向量化NPU Kernel——102个机器学习算子、编译器反馈与... NeuralTalk · 公众号 · · 9 月前 · |
|
|
调度语言的过去、现在和未来:面向 CPU/GPU 集群、性能接近厂商库的统一调度技术创新 NeuralTalk · 公众号 · · 9 月前 · |