|
|
替代 GRPO!英伟达最新成果GDPO,解决多奖励 RL 训练的优势崩溃 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
从文本扩散模型到线性注意力混合架构,标准 LLMs 的替代方案全解 青稞AI · 公众号 · AI · 5 月前 · |
|
|
周二晚8点!和 MiniMax 通用模型后训练负责人,一起聊聊 M2.1 中的 Agent 后训练经... 青稞AI · 公众号 · AI · 5 月前 · |
|
|
放弃 Fine-tuning!Manus 团队在构建通用 Agent 过程中的经验总结 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 6 月前 · |
|
|
· 公众号 · AI · 6 月前 · |
|
|
让优秀的评测基准被看见|2025司南年度最受欢迎评测集评选启动 青稞AI · 公众号 · AI · 6 月前 · |
|
|
小白必看!从 REINFORCE 到 PPO,LLM 视角下直观理解 RLHF 核心算法演进 青稞AI · 公众号 · AI · 6 月前 · |
|
|
· 公众号 · AI · 6 月前 · |
|
|
· 公众号 · AI · 6 月前 · |
|
|
· 公众号 · AI · 6 月前 · |
|
|
2025 “青稞” AI 嘉年华10点开播!20+位青年科学家深度对话五大技术趋势 青稞AI · 公众号 · AI · 6 月前 · |
|
|
· 公众号 · AI · 6 月前 · |
|
|
从预训练到后训练,与刘子纬教授等五名青年科学家深度探讨LLM/MLLM 青稞AI · 公众号 · AI · 6 月前 · |