|
|
【转载】重探 On-Policy Distillation(OPD):三类典型失败以及修复路径 深度强化学习 CASIA · 公众号 · · 1 周前 · |
|
|
ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通 深度强化学习 CASIA · 公众号 · · 3 周前 · |
|
|
深度强化学习团队与小米汽车合作提出 PerlAD | 伪仿真RL方案让端到端性能提升10% 深度强化学习 CASIA · 公众号 · · 1 月前 · |
|
|
理想&中科院提出 WorldRFT | 让世界模型学会“理解”场景,比让它“复现”场景更重要 深度强化学习 CASIA · 公众号 · · 4 月前 · |
|
|
精选好文 | 基于多模态学习的非酒精性脂肪肝病预测 深度强化学习 CASIA · 公众号 · · 4 月前 · |
|
|
RoboGPT-R1:使用 RL 增强 VLM 的机器人规划能力 深度强化学习 CASIA · 公众号 · · 4 月前 · |