专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
架起仿真与硅硬件的桥梁:40项微基准与科学应用测试下,FireSim全系统仿真能否准确预测商用 RI...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
告别多 GPU 性能“隐形税”:Triton + Iris 融合通信计算,重新设计分布式大模型计算范...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
开源端到端编译器工具链:从 PyTorch 到 FPGA 硬件描述,性能达Vitis HLS 的 2...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
如何仅用 Triton,实现跨平台 GPU 的 Attention 顶尖性能?5.9 倍提速,达 1...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
性能远超 vLLM 和 SGLang!TileRT:编译器驱动下的 Tile-Based Runti...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
首个RVV适配的 Intrinsic 代码迁移基准 VecIntrinBench:LLM 20%通过...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
NVIDIA ComputeEval:从基准建立到难度升级,全面评估 LLMs 的 CUDA 代码生...
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
生产级 Apple Silicon LLM 推理框架深入分析对比:MLX, MLC-LLM, Oll...
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
小型语言模型(SLMs)边缘部署在 CPU、GPU 与 NPU 硬件后端的综合对比
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
AMD MI300X GPU 计算、内存、通信性能分析
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
8-Wave Ping-Pong 调度赋能 HipKittens:AMD GPU Kernel 3×...
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
Warp Specialization在 GEMM Kernel 中的性能建模与优化:仿真工具与 ≤...
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
通过 GPU 尾效应分析,重新思考 DNN 的设计与延迟!让多架构模型延迟降 11%-27%且吞吐量...
NeuralTalk  ·  公众号  ·  ·  5 月前  ·