|
强化学习的10层境界(下):多智能体与博弈,以及LLM引导的策略生成 青稞AI · 公众号 · AI · 2 天前 · |
|
如何推广 RLVR 到通用领域推理问题?一起来聊聊基于参考概率奖励的强化学习 RLPR 青稞AI · 公众号 · AI · 2 天前 · |
|
公众号 · AI · 3 天前 · · |
|
公众号 · AI · 4 天前 · · |
|
公众号 · AI · 4 天前 · · |
|
聊聊SeaAI Lab的PP优化工作 PipeOffload 青稞AI · 公众号 · AI · 5 天前 · |
|
实录精选|slime开源项目作者朱子霖:Infra视角下,为 RL Scaling设计的训练框架 青稞AI · 公众号 · AI · 5 天前 · |
|
公众号 · AI · 6 天前 · · |
|
公众号 · AI · 6 天前 · · |
|
OpenAI开源小模型gpt-oss的妙妙小观察 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
深度好文!强化学习的10层境界(上):从巴甫洛夫的狗到贝叶斯大脑,理解RL的前世今生 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
DeepSeek-GRPO重要性权重设计错误?详解Qwen3新强化学习算法GSPO 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 2 周前 · · |