|
对比Adam,为什么选择Muon?Muon优化器优化原理深度解析及最新思考 吃果冻不吐果冻皮 · 公众号 · 科技创业 科技自媒体 · 2 天前 · |
|
咖哥重磅新书!教你玩转RAG大模型应用开发 吃果冻不吐果冻皮 · 公众号 · · 5 天前 · |
|
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · |
|
多模态大模型文心4.5后训练详解 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
万字长文|小作坊的强化之路 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何量化 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
Qwen3-RL训练过程详解 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
2025最新!三万字长文,详解统一多模态理解与生成模型的进展、挑战与机遇 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · |
|
谈一谈对大模型对齐框架的反思及其改进思路 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |
|
苹果AI再遭重创:基础模型负责人Ruoming Pang被小扎以千万年薪挖走 吃果冻不吐果冻皮 · 公众号 · · 3 周前 · |