专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
理解并优化 CUDA Occupancy
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
历史在不断重演:NVIDIA SM 架构的颠覆性创新之路
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
100% GPU 利用率陷阱:SM 效率监控+内核融合让 LLM MFU 从 20%飙升至 38%
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
面向 LLM 的 MXFP4 专属 PTQ 方案:BRQ 策略实现跨模型量化精度提升与 40% 推理...
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
面向有依赖Kernels的细粒度并行通用加速器Squire:7.6倍提速与56%能耗降低!
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
NVIDIA 技术博客:基于 DeepSeek-R1 与推理计算扩展的 GPU Kernel 自动生...
NeuralTalk  ·  公众号  ·  ·  5 月前  · 
超越AutoTriton/KernelLLM的 Triton 内核生成模型 TritonRL:融合S...
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
基于微基准测试的共享内存 Bank Conflict 规避与高效访问 A100 GPU 量化研究
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
NVIDIA 技术博客:在 CUDA C/C++ 中使用共享内存
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
Act: 首个从张量加速器 ISA 描述自动生成编译器后端工具,实现 1.77 倍性能超越手工优化库...
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
vLLM TPU:一款支持在 TPU 上运行 PyTorch 与 JAX 的全新统一后端
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
Vortex:仅 5 条指令扩展的 RISC-V SIMT GPGPU 开源全栈实现
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
RK3566 GPU内存省11.2%,能耗降42.3%!软硬件协同框架 NanoMind:分解多模态...
NeuralTalk  ·  公众号  ·  ·  6 月前  · 
Tawa:面向现代 GPU 的自动 warp 特化创新方案,性能超cuBLAS 1.1 倍、Trit...
NeuralTalk  ·  公众号  ·  ·  6 月前  ·