专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
0.03%开销下27%吞吐提升!NCCLbpf:当 eBPF 遇见 GPU 集群通信,原子热重载实现...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
在 MLIR 之上构建 HLS 工具是个好主意吗?——基于 Dynamatic HLS 编译器开发经...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
4992 TOPS/s 巅峰性能!BinaryAttention将 QK 压缩到 1 比特,精度反超...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
端侧LLM设计美学,手机CPU也能起飞!Meta 提出 MobileLLM-Flash:以350M~...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
“几乎不可编译”到15.9倍加速!AscendCraft:面向 NPU 的内核生成方法,DSL引导转...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
算子工程师末日。。。NVIDIA提出SOL-ExeBench:对标硬件效率极限,生成真实 GPU K...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
HeRo: 异构端侧SoC的智能RAG自适应编排框架,实现高达10.94倍加速
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
BF16 vs NVFP4精度鸿沟收窄术:4-bit LLM 训练方案 CHON 用二阶误差补偿实现...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
47.8%内核 1.2 倍加速!Dr. Kernel:面向Triton Kernel生成的无偏多轮强...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
FPGA'26 首款超低成本嵌入式 FPGA 平台 Hummingbird+:让 30B MoE大模...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
NVlabs/cutile-rs:用 Rust 安全高效地编写 GPU 内核
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
端侧 LLM 最优架构被彻底颠覆:MoE 全占优、宽而浅才是硬件协同终极解
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
ArchAgent: 智能体驱动的计算机体系结构自动发现,实现 5.3%多核性能突破与 3-5 倍加...
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
告别手工调参:FT-Dojo 与 FT-Agent 开启智能体 LLM 微调的自动驾驶时代
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
技能即记忆:AutoSkill 让 LLM 智能体从交互经验中自我进化,实现终身学习,代码开源!
NeuralTalk  ·  公众号  ·  ·  1 月前  · 
测试时原子Skill的组合与演进!智能体技能新范式SkillCraft,代码开源!
NeuralTalk  ·  公众号  ·  ·  1 月前  ·