|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
别搞混了!Reward Model ≠ Critic:PPO 中的双重评估机制解析 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
两万字长文解读!RoPE 如何让大模型拥有超长记忆 青稞AI · 公众号 · AI · 5 月前 · |
|
|
视觉模型引入频谱信息!一起聊聊从语义到像素的统一自编码 UAE 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
大模型为什么会产生“离群值”?深度解析RoPE与注意力机制 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
2025 Agentic RL 经验总结!这一年的弯路、暴论和下一步思考 青稞AI · 公众号 · AI · 5 月前 · |