|
最新综述:多任务场景下的协作多智能体强化学习研究进展 深度强化学习 CASIA · 公众号 · · 2 周前 · |
|
深度强化学习杰出讲座2025-01期--CESARE ALIPPI教授 深度强化学习 CASIA · 公众号 · · 2 周前 · |
|
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等 深度强化学习 CASIA · 公众号 · · 1 月前 · |
|
第四届智能决策论坛预告 | 专题分论坛:具身智能前沿技术 深度强化学习 CASIA · 公众号 · · 1 月前 · |
|
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择 深度强化学习 CASIA · 公众号 · · 2 月前 · |
|
LFS: 通过合成观测学习未来表征以实现高效强化学习 深度强化学习 CASIA · 公众号 · · 3 月前 · |
|
RSS 2025|ConRFT: 真实环境下基于强化学习的 VLA 模型微调方法 深度强化学习 CASIA · 公众号 · · 3 月前 · |
|
ICLR 2025 | DVFB: 面向在线无监督强化学习零样本泛化的双价值前向后向表示模型 深度强化学习 CASIA · 公众号 · · 4 月前 · |