|
|
谈谈 DeepSeek-R1 和 V3.2 的后训练以及 RL 训练稳定性的问题 青稞AI · 公众号 · AI · 1 月前 · |
|
|
Claude Code 源码逆向工程与系统性分析!Harness Engineering: 基于 C... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
从任意视角理解和生成世界!和 NTU 博后廖康,一起聊聊统一多模态空间智能大模型 Puffin 青稞AI · 公众号 · AI · 1 月前 · |
|
|
从传统 RL 的视角看大模型 RLVR 青稞AI · 公众号 · AI · 1 月前 · |
|
|
大模型RL算法梳理:从全量词元到部分词元的路径演化 青稞AI · 公众号 · AI · 1 月前 · |
|
|
近半年 On-Policy Distillation 的三大主流方向:一个方法解决两道难题 青稞AI · 公众号 · AI · 1 月前 · |
|
|
长文干货!深度解析第三代 RLVR 模型的训练过程 青稞AI · 公众号 · AI · 1 月前 · |
|
|
下周二晚8点!一起聊聊 OpenClaw-RL:让你的龙虾在使用中自适应变强 青稞AI · 公众号 · AI · 1 月前 · |
|
|
大模型的下半场是什么?林俊旸:从 Reasoning Thinking 到 Agentic Thin... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
对话上海交通大学助理教授杨学:如何做好系统性科研 青稞AI · 公众号 · AI · 1 月前 · |
|
|
从 ORM 到 PRM,Reasoning 模型诞生:思维链、思维树、思维图、MCTS、 Self-... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
真机RL成本太高?一起聊聊 RISE:让机器人在世界模型的“想象”中自主进化 青稞AI · 公众号 · AI · 1 月前 · |
|
|
LLM Post-Training 全景指南:从 RLHF 到 GRPO 再到 Agentic RL 青稞AI · 公众号 · AI · 1 月前 · |
|
|
长文干货!从 SFT 到 PPO 全解:拒绝采样、Reward Model、REINFORCE、Ac... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
MOE 架构如何做 SFT 和 RL?聊聊 post-training 难点与经验 青稞AI · 公众号 · AI · 1 月前 · |
|
|
干货!万字长文解析 Agent 框架中的上下文管理策略 青稞AI · 公众号 · AI · 1 月前 · |
|
|
直播预告!从 Depth Scaling 到 Width Scaling,聊聊 WideSeek-R... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
Agentic RL 训练核心问题:环境建模、学习信号、异步数据流、策略优化和基础设施 青稞AI · 公众号 · AI · 1 月前 · |
|
|
从推理架构的角度,谈谈 Attention Residual 架构一些背后的想法 青稞AI · 公众号 · AI · 1 月前 · |
|
|
如何成为超级个体(严肃脸)?这场活动回答你 青稞AI · 公众号 · AI · 1 月前 · |