|
OpenAI开源小模型gpt-oss的妙妙小观察 青稞AI · 公众号 · AI · 16 小时前 · |
|
公众号 · AI · 昨天 · · |
|
公众号 · AI · 2 天前 · · |
|
深度好文!强化学习的10层境界(上):从巴甫洛夫的狗到贝叶斯大脑,理解RL的前世今生 青稞AI · 公众号 · AI · 3 天前 · |
|
公众号 · AI · 4 天前 · · |
|
公众号 · AI · 4 天前 · · |
|
公众号 · AI · 5 天前 · · |
|
公众号 · AI · 5 天前 · · |
|
公众号 · AI · 5 天前 · · |
|
DeepSeek-GRPO重要性权重设计错误?详解Qwen3新强化学习算法GSPO 青稞AI · 公众号 · AI · 6 天前 · |
|
公众号 · AI · 1 周前 · · |
|
理解一下!DPO 是如何简化 RLHF 的 青稞AI · 公众号 · AI · 1 周前 · |
|
北卡教堂山计算机系姚骅修教授招收2026 CS AI PhD 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |
|
六万字长文!一次性说清 LLM 的后训练技术 青稞AI · 公众号 · AI · 1 周前 · |
|
公众号 · AI · 1 周前 · · |
|
公众号 · AI · 1 周前 · · |