|
|
大模型为什么会产生“离群值”?深度解析RoPE与注意力机制 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
2025 Agentic RL 经验总结!这一年的弯路、暴论和下一步思考 青稞AI · 公众号 · AI · 4 月前 · |
|
|
替代 GRPO!英伟达最新成果GDPO,解决多奖励 RL 训练的优势崩溃 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
从文本扩散模型到线性注意力混合架构,标准 LLMs 的替代方案全解 青稞AI · 公众号 · AI · 4 月前 · |
|
|
周二晚8点!和 MiniMax 通用模型后训练负责人,一起聊聊 M2.1 中的 Agent 后训练经... 青稞AI · 公众号 · AI · 4 月前 · |
|
|
放弃 Fine-tuning!Manus 团队在构建通用 Agent 过程中的经验总结 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
让优秀的评测基准被看见|2025司南年度最受欢迎评测集评选启动 青稞AI · 公众号 · AI · 4 月前 · |
|
|
小白必看!从 REINFORCE 到 PPO,LLM 视角下直观理解 RLHF 核心算法演进 青稞AI · 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |
|
|
· 公众号 · AI · 4 月前 · |