|
|
Rethinking On-Policy Distillation of Large Languag... 青稞AI · 公众号 · AI · 4 周前 · |
|
|
清华✖️UIUC :为什么 OPD 经常不 work? 青稞AI · 公众号 · AI · 4 周前 · |
|
|
从 OPD 与反向 KL 的关系,到 OPD 的两种形态以及路线之争 青稞AI · 公众号 · AI · 4 周前 · |
|
|
用强化学习做知识蒸馏,方差太大怎么办? 青稞AI · 公众号 · AI · 1 月前 · |
|
|
The Art of Efficient Reasoning: 大道至简做好思维链压缩! 青稞AI · 公众号 · AI · 1 月前 · |
|
|
寻找 CUA 的 ChatGPT 时刻!顶会 ICLR 2026 硬核直播来袭 青稞AI · 公众号 · AI · 1 月前 · |
|
|
思考 World Action Model!从Masked World Model到Fast WAM... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
思考多模态理解可能的未来:从描述世界到进入世界 青稞AI · 公众号 · AI · 1 月前 · |
|
|
AI工程范式的三次演化:Prompt Engineering → Context Engineeri... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
直播预告!从最基础的模型出发,深度剖析高性能 VLA 的设计空间 青稞AI · 公众号 · AI · 1 月前 · |
|
|
深度讲解两种 KL 散度:Forward 与 Reverse,以及在实际应用中如何选择? 青稞AI · 公众号 · AI · 1 月前 · |
|
|
重探 On-Policy Distillation(OPD):三类典型失败以及修复路径 青稞AI · 公众号 · AI · 1 月前 · |
|
|
从 Claude Code 到 Codex: 基于 Anthropic harness 思路的迁移实... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
VLA 终极“配方” VLANeXt!12个维度深度剖析高性能 VLA 的设计空间 青稞AI · 公众号 · AI · 1 月前 · |
|
|
周六上午10点!一起聊聊 Qwen Pilot 最新成果 FIPO:KL 散度打破大模型复杂推理瓶颈 青稞AI · 公众号 · AI · 1 月前 · |
|
|
SGLang Overview:设计哲学与关键机制 青稞AI · 公众号 · AI · 1 月前 · |
|
|
Agentic能力从哪里来?拆解基座大模型 GLM-5 /MiniMax M2/Kimi K2.5 ... 青稞AI · 公众号 · AI · 1 月前 · |
|
|
拆解 Gemma 4 架构和训练的技术选择,以及与 Qwen3 和 GLM-5 的对比 青稞AI · 公众号 · AI · 1 月前 · |
|
|
Claude Code 源码深度解析:运行机制与 Memory 模块详解 青稞AI · 公众号 · AI · 1 月前 · |
|
|
ICLR'26 Oral | 当 LLM Agent 在多轮推理中迷失时:T3 如何让强化学习重新学... 青稞AI · 公众号 · AI · 1 月前 · |