|
|
From Traditional RL to LLM RL 理论推导与工程改进 青稞AI · 公众号 · AI · 2 月前 · |
|
|
从梯度角度看SFT、Off-Policy Distillation、RL、On-Policy Dis... 青稞AI · 公众号 · AI · 2 月前 · |
|
|
On-Policy Distillation 到底是什么?深度解读 On-Policy/Self-D... 青稞AI · 公众号 · AI · 2 月前 · |
|
|
Thinking with Images 为什么(不)work? 青稞AI · 公众号 · AI · 2 月前 · |
|
|
通往 AGI 的必经之路:Agent 自进化到底是在“进化”什么? 青稞AI · 公众号 · AI · 2 月前 · |
|
|
从零开始构建自进化智能体的心路历程 青稞AI · 公众号 · AI · 2 月前 · |
|
|
超详细!一张表串讲 LLM-RL 中 KL 散度正则的正确与错误用法 青稞AI · 公众号 · AI · 3 月前 · |
|
|
苦涩的教训!ROLL团队分享:Agentic RL 训练中的实践经验 青稞AI · 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
少用 sense 挑战 math!如何把 post train 做好,聊聊后训练方法论 青稞AI · 公众号 · AI · 3 月前 · |
|
|
比肩 GPT-5 的 Kernel Coding 模型!Dr. Kernel 用多轮 RL 训练大模... 青稞AI · 公众号 · AI · 3 月前 · |
|
|
简单明了!一张图看懂 GRPO 的十几种主流变体算法 青稞AI · 公众号 · AI · 3 月前 · |
|
|
减论APP终于上线了!科研人的福利,发论文也能有收益! 青稞AI · 公众号 · AI · 3 月前 · |
|
|
为什么 Policy Gradient 不能用 Replay Buffer? 青稞AI · 公众号 · AI · 3 月前 · |
|
|
· 公众号 · AI · 3 月前 · |
|
|
MoE 训练到底是开 TP 还是 EP? 青稞AI · 公众号 · AI · 3 月前 · |
|
|
Big Model Smell:Kimi K2.5 背后的 VLM 训练哲学与“N+1”范式 青稞AI · 公众号 · AI · 3 月前 · |
|
|
从 Pretrain 到 Agentic Vision:Kimi K2.5 的原生多模态训练之道 青稞AI · 公众号 · AI · 3 月前 · |
|
|
从 RL 到 Agentic RL 训练框架!一个 RLer 进入 LLM 训练领域后的一年三个月 青稞AI · 公众号 · AI · 3 月前 · |
|
|
从算法到系统工程!大模型训练系统的关键技术详解 青稞AI · 公众号 · AI · 3 月前 · |