|
|
周二晚8点!一起聊聊RLinf-USER:面向现实世界机器人在线策略学习的统一且可扩展系统 青稞AI · 公众号 · AI · 2 月前 · |
|
|
ROLL 团队分享:面向多轮交互 Agentic 场景的 Rollback 课程学习机制探索与实践 青稞AI · 公众号 · AI · 2 月前 · |
|
|
深度拆解!RLHF 泛化与收敛的可证明界 青稞AI · 公众号 · AI · 2 月前 · |
|
|
Agentic RL:解耦 Reasoning 与 Tool-use 青稞AI · 公众号 · AI · 2 月前 · |
|
|
staleness很大的时候,如何保证offpolicy-rl训练稳定性 青稞AI · 公众号 · AI · 2 月前 · |
|
|
周六上午10点!聊聊Dr. Kernel如何突破大模型GPU Kernel生成的多轮RL训练瓶颈? 青稞AI · 公众号 · AI · 2 月前 · |
|
|
七篇论文!深度理解 On-Policy Distillation 在算法和工程上的最新探索 青稞AI · 公众号 · AI · 2 月前 · |
|
|
从 ResNet 到 Hyper-Connections,再到 mHC 青稞AI · 公众号 · AI · 2 月前 · |
|
|
FLUX已经“懂物理”了?南洋理工最新成果,让「抠图贴纸」升级成「真实融入」 青稞AI · 公众号 · AI · 2 月前 · |
|
|
聊聊蚂蚁 Ling 2.5 Lightning Attention 和 MLA 混合线性架构改造实践 青稞AI · 公众号 · AI · 2 月前 · |
|
|
对话浙大软件学院“百人计划”研究员彭思达:如何从保研小白成长为CCF优博? 青稞AI · 公众号 · AI · 2 月前 · |
|
|
从 DeepSeek 的 Dualpath 看推理如何高效用好网络 青稞AI · 公众号 · AI · 2 月前 · |
|
|
从“手推策略梯度定理”开始:基于公式推导理解RL的创新本质 青稞AI · 公众号 · AI · 2 月前 · |
|
|
下周二晚8点!一起聊聊 RL 训练的线性轨迹,揭示 LLM 强化学习中的高效捷径 青稞AI · 公众号 · AI · 2 月前 · |
|
|
聚焦统一多模态学习范式!CVPR 2026 官方 Workshop(A2A-MML)正式开启投稿 青稞AI · 公众号 · AI · 2 月前 · |
|
|
大厂实战中,如何判断SFT到什么程度开始做RL 青稞AI · 公众号 · AI · 2 月前 · |
|
|
Minimax 团队分享:M2.5 模型训练背后,关于 Agent RL 系统的思考 青稞AI · 公众号 · AI · 2 月前 · |
|
|
聊聊 Agentic RL 热门话题:Off-policyness,Sample Efficienc... 青稞AI · 公众号 · AI · 2 月前 · |
|
|
LLM RL 训练轨迹竟然是线性的?Miaow Lab 最新工作:无需继续训练,直接“预测”未来模型... 青稞AI · 公众号 · AI · 2 月前 · |
|
|
ICLR 2026|引入多臂老虎机,在有限评测预算下高效搜索多 Agent 结构 青稞AI · 公众号 · AI · 2 月前 · |