|
|
AI Infra新探索:克服Coding Agent推理的Scaling Pain 吃果冻不吐果冻皮 · 公众号 · · 昨天 · |
|
|
从 DeepSeek V4 的多专家 on-policy Distillation 反观人类学习模式 吃果冻不吐果冻皮 · 公众号 · · 2 天前 · |
|
|
高效搞定学术公式!利用LlamaFactory微调实现 LaTeX 精准转换 吃果冻不吐果冻皮 · 公众号 · · 5 天前 · |
|
|
大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同... 吃果冻不吐果冻皮 · 公众号 · · 5 天前 · |
|
|
AI Infra 面试问题QA 总结——大模型推理 吃果冻不吐果冻皮 · 公众号 · · 6 天前 · |
|
|
大模型 RL 训练:计算流程全解析 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
全网最全!四足机器人RL部署流程:URDF解析、域随机化、摩擦补偿等(含4个项目实践) 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
大模型知识蒸馏:On-Policy Distillation(原理篇) 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
Harness 工程及设计模式 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
深度解析:Harness Engineering 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
Claude Code 模型 RL训练中的Reward Hacking 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
刚刚,梁文锋被曝史上首次融资!DeepSeek V4彻底摆脱英伟达 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
深度讲解两种 KL 散度:Forward 与 Reverse,以及在实际应用中如何选择? 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
硬核实战!从0建模,搭建一套机器人导航系统 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
SkillReducer:为Skills瘦身,破解Token低效难题 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
AI工程范式的三次演化:Prompt Engineering → Context Engineeri... 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
AI智能体全栈开发实战 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
SGLang Overview:设计哲学与关键机制 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |