|
|
系数保持采样:Flow Matching随机性注入的正确打开方式 青稞AI · 公众号 · AI · 8 月前 · |
|
|
微软提出GRPO-RoC:轨迹质量过滤是Agentic RL的关键 青稞AI · 公众号 · AI · 8 月前 · |
|
|
苏剑林:重新思考学习率与Batch Size的关系 青稞AI · 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
OpenAI研究 : 语言模型为什么会有"幻觉"? 可以去除幻觉吗? 青稞AI · 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
如何解决强化学习中Clip操作梯度无法回传的问题 青稞AI · 公众号 · AI · 8 月前 · |
|
|
周二晚8点!和港中文王鸿儒博士,一起聊聊智能体的最优行为,以及如何在实践中实现这种最优性? 青稞AI · 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
本周六上午!一起聊聊NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍 青稞AI · 公众号 · AI · 8 月前 · |
|
|
动态微调 DFT:从强化学习的视角改进监督微调 SFT 青稞AI · 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
美团开源!LongCat-Flash技术报告解读 青稞AI · 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
· 公众号 · AI · 8 月前 · |
|
|
当 think 遇上 tool:深入解析 Agent 的规划之道 青稞AI · 公众号 · AI · 8 月前 · |