|
|
OpenAI 翁家翌:“启发式学习”的强化学习新范式 吃果冻不吐果冻皮 · 公众号 · · 23 小时前 · |
|
|
Agent Harness 解析:智能体架构深度拆解 吃果冻不吐果冻皮 · 公众号 · · 昨天 · |
|
|
下一个范式诞生?OpenAI翁家翌:不练网络不调参,全靠Agent改代码破解灾难性遗忘死局 吃果冻不吐果冻皮 · 公众号 · · 4 天前 · |
|
|
LLM 预训练数据工程的关键实践! 吃果冻不吐果冻皮 · 公众号 · · 4 天前 · |
|
|
DeepSeek-V4 的并行策略和计算通信遮掩 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
AI Infra新探索:克服Coding Agent推理的Scaling Pain 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
|
从 DeepSeek V4 的多专家 on-policy Distillation 反观人类学习模式 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
高效搞定学术公式!利用LlamaFactory微调实现 LaTeX 精准转换 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同... 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
AI Infra 面试问题QA 总结——大模型推理 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
大模型 RL 训练:计算流程全解析 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
|
全网最全!四足机器人RL部署流程:URDF解析、域随机化、摩擦补偿等(含4个项目实践) 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
大模型知识蒸馏:On-Policy Distillation(原理篇) 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
Harness 工程及设计模式 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
深度解析:Harness Engineering 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
Claude Code 模型 RL训练中的Reward Hacking 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
刚刚,梁文锋被曝史上首次融资!DeepSeek V4彻底摆脱英伟达 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
|
深度讲解两种 KL 散度:Forward 与 Reverse,以及在实际应用中如何选择? 吃果冻不吐果冻皮 · 公众号 · · 4 周前 · |
|
|
硬核实战!从0建模,搭建一套机器人导航系统 吃果冻不吐果冻皮 · 公众号 · · 4 周前 · |