|
|
· 公众号 · AI · 4 月前 · |
|
|
从预训练到后训练,与刘子纬教授等五名青年科学家深度探讨LLM/MLLM 青稞AI · 公众号 · AI · 4 月前 · |
|
|
经验分享!这半年来,用 RL 做 LLM 后训练时踩过的那些坑与心得 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
大模型强化学习算法PPO、GRPO、DAPO、GSPO、SAPO的演进与对比 青稞AI · 公众号 · AI · 4 月前 · |
|
|
从算法设计到训练框架!与五位青年科学家一起深度探讨 RL ! 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
打造懂专业、会指导的AI教练!中科院自动化所&北体大提出 SportsGPT 青稞AI · 公众号 · AI · 4 月前 · |
|
|
Agent 的架构之争已经结束?从 Claude Code 到 Deep Agent,复盘 Agen... 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
如何解决RL阶段的Off-Policy问题?聊聊大模型时代的信任域策略优化TRPO 青稞AI · 公众号 · AI · 5 月前 · |