|
理解一下!DPO 是如何简化 RLHF 的 青稞AI · 公众号 · AI · 2 周前 · |
|
北卡教堂山计算机系姚骅修教授招收2026 CS AI PhD 青稞AI · 公众号 · AI · 2 周前 · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
六万字长文!一次性说清 LLM 的后训练技术 青稞AI · 公众号 · AI · 2 周前 · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 2 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
探索为什么要融合SFT和RL,以及应该怎么融合 青稞AI · 公众号 · AI · 3 周前 · |
|
多模态大模型文心4.5后训练详解 青稞AI · 公众号 · AI · 3 周前 · |
|
Skywork or1 技术报告解读——小作坊的强化之路! 青稞AI · 公众号 · AI · 3 周前 · |
|
高质量奖励函数,让你告别RL探索难题!基于LLM的自动奖励生成方法R* 青稞AI · 公众号 · AI · 3 周前 · |