|
|
JMLR 论文解读 | 北航团队提出SIDM:基于结构信息原理的通用分层决策框架 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
蚂蚁集团全球招募顶尖 AI人才 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【清华大学】DSAC-T算法的技术解读,中小模型强化学习算法的最佳选择 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【论文分享】强化学习最优性条件的哈密顿动力学解释 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【论文解读】对抗强化学习的光滑策略迭代(SPI)架构详解 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
ICLR 2025 Spotlight | SmODE: 神经常微分网络让深度强化学习的控制更加丝滑... 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【上海算法创新研究院】推理大模型算法实习工程师(强化方向) 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【RL博后研究员招聘】亚利桑那大学刘博博士(师从图灵奖Barto)课题组 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【清华大学】神经网络优化器进化论:从SGD到RAD,读懂AI训练的内功心法 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
从仿真到现实:对抗强化学习练就互搏神技 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【留言送5本】清华大学刘知远团队新作,28位AI天才们的热血传奇,比番剧更燃! 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
DeepSeek核心强化学习GRPO算法解读:大模型与小模型的不同选择 深度强化学习实验室 · 公众号 · 科技创业 科技自媒体 · 1 年前 · |
|
|
NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA! 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
清华团队提出RL专用神经网络优化器,性能位居榜首 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【第二弹】强化微调,用少量样本训练专家模型 深度强化学习实验室 · 公众号 · 科技自媒体 · 1 年前 · |
|
|
【清华大学】当鲁棒控制遇到强化学习:零和博弈视角的非线性拓展 深度强化学习实验室 · 公众号 · · 1 年前 · |
|
|
【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式,无需经验重放、目标网络或批量更新。 深度强化学习实验室 · 公众号 · 科技自媒体 · 1 年前 · |