专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
性能相比SGLang/vLLM最高提升1.7倍!Mirage Persistent Kernel:首...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
Meta 提出 TritorX:面向 ML ASIC 的 Agentic 算子生成系统,84.7% ...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
颠覆模型压缩与复用逻辑!基于 1100+个模型的“隐藏共性”:无论初始化、任务或领域,都会收敛到架构...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
ResNet/YOLOv8/11在Android骁龙 8 Gen2 异构硬件 CPU/GPU/NPU...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
跨代突破!AMD Ryzen AI NPU GEMM 统一优化框架:XDNA2 达 38.05 TO...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
端到端 LLM 编译器 nncase:基于 e-graph 的异构存储架构高性能统一编译框架
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
突破GUI像素瓶颈!面向端侧Agent语义世界建模 MobileWorldBench!1.4M 数据...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
1979 TFLOPS巅峰表现!ETH实现Tile-Based PE加速器的自动化GEMM部署,碾压...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
突破NVFP4量化性能瓶颈!MIT与NVIDIA提出Four Over Six开源方案:近BF16困...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
小语言模型量化基准体系 SLMQuant:8 位近无损与 W4A8 低比特效能研究
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
GPU 上 LLM 推理的系统表征:从两阶段特性、微架构根源与范式扩展到 MoE/RAG 优化
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
64块H100媲美96块!开源MoE软硬件协同加速方案SonicMoE:基于IO和tile感知优化实...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
350M小模型精度性能双超 ChatGPT等商业大模型!平衡模型规模、训练效率与任务精度的微调方案,...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
结合 decuda 配合微基准测试揭秘 Nvidia GT200 微架构:未公开存储层级与同步机制量...
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
端侧 AI 的终极形态?Nexa SDK 实现手机、PC、边缘设备的算力大一统!
NeuralTalk  ·  公众号  ·  ·  4 月前  · 
逆向软硬件实现中的浮点累加顺序工具 FPRev
NeuralTalk  ·  公众号  ·  ·  4 月前  ·