|
|
磐石·科学基础大模型赋能LAMOST:从千万光谱中开启稀有天体搜寻新方案 深度强化学习 CASIA · 公众号 · · 2 天前 · |
|
|
恭喜2026年夏季毕业生 深度强化学习 CASIA · 公众号 · · 1 周前 · |
|
|
实录精选!直面OPD训练困境,如何破解三类典型失败与修复路径? 深度强化学习 CASIA · 公众号 · · 2 周前 · |
|
|
自动化所最新推出 π-Play: 基于自博弈生成特权信息的自蒸馏大模型自进化框架 深度强化学习 CASIA · 公众号 · · 2 周前 · |
|
|
直播预告|从 MiniLLM 开始,为什么 OPD 正在成为推理模型时代的“基础设施”? 深度强化学习 CASIA · 公众号 · · 3 周前 · |
|
|
2026智源大会议程公开丨强化学习论坛 深度强化学习 CASIA · 公众号 · · 4 周前 · |
|
|
【转载】重探 On-Policy Distillation(OPD):三类典型失败以及修复路径 深度强化学习 CASIA · 公众号 · · 1 月前 · |
|
|
ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通 深度强化学习 CASIA · 公众号 · · 2 月前 · |
|
|
深度强化学习团队与小米汽车合作提出 PerlAD | 伪仿真RL方案让端到端性能提升10% 深度强化学习 CASIA · 公众号 · · 2 月前 · |