|
|
从 GLM/Qwen 看: Agentic RL 最新进展 青稞AI · 公众号 · AI · 19 小时前 · |
|
|
On-Policy Self-Distillation:LLM利用隐式用户反馈定向纠错与持续学习 青稞AI · 公众号 · AI · 昨天 · |
|
|
直播预告!聊聊 DPA & LLaVA-HUD v4:多模态大模型的深度预对齐与高效视觉编码优化 青稞AI · 公众号 · AI · 2 天前 · |
|
|
大模型真的会模拟人类用户吗?中科院软件所、快手推出首个真实世界全链路用户行为模拟基准 OmniBeh... 青稞AI · 公众号 · AI · 2 天前 · |
|
|
就从来没人质疑过 OPD 的 reward 设计吗?我们发现了 log 本身就是问题,也许就不该用! 青稞AI · 公众号 · AI · 3 天前 · |
|
|
Lilian Weng 最新硬核长文:万字拆解 Scaling Laws,大模型训练的“黄金法则” 青稞AI · 公众号 · AI · 4 天前 · |
|
|
【征稿通知】ECCV 2026 Workshop | 多模态大语言模型统一理解与生成(MUCG) 青稞AI · 公众号 · AI · 4 天前 · |
|
|
强化学习与流模型:Offline RL 与策略提取:多模态分布与条件均值 青稞AI · 公众号 · AI · 4 天前 · |
|
|
大模型后训练:从轨迹分布到 Fisher 约束 青稞AI · 公众号 · AI · 5 天前 · |
|
|
直播预告!大模型后训练,如何实现百万级 LoRA 策略的训练与推理? 青稞AI · 公众号 · AI · 6 天前 · |
|
|
为什么 Pretrain Loss相同,但下游任务表现却天差地别? 青稞AI · 公众号 · AI · 1 周前 · |
|
|
深入理解 Agentic RL 中的行为崩塌现象 青稞AI · 公众号 · AI · 1 周前 · |
|
|
xOPD 演进|梳理近期 OPD 的改进工作:哪些是同一个问题换说法、哪些是动了不同的模块 青稞AI · 公众号 · AI · 1 周前 · |
|
|
直播预告!聊聊 VeRL-Omni:基于 VeRL 及 vLLM-Omni 构建的多模态生成模型开源... 青稞AI · 公众号 · AI · 1 周前 · |
|
|
MTP 为什么有效,又为什么能成为 LLM 标配?深度讲解 MTP 的模型结构细节 青稞AI · 公众号 · AI · 1 周前 · |
|
|
把投机采样讲透:以 SGLang 中的 EAGLE-2 为例 青稞AI · 公众号 · AI · 1 周前 · |
|
|
ACL 2026|SFT 为何总是学习失败?也不是所有 SFT 失败都该加 epoch!教你修复 S... 青稞AI · 公众号 · AI · 1 周前 · |
|
|
World Model 的大一统还很远,闭环进化更近! 青稞AI · 公众号 · AI · 1 周前 · |
|
|
实录精选|On-Policy Distillation专题:与RL 的本质区别、全词表监督、跨模型/... 青稞AI · 公众号 · AI · 2 周前 · |
|
|
ACL 2026 | CoT 真的是越多越好?混元提出 E-GRM, 让大模型“该省则省、该花则花... 青稞AI · 公众号 · AI · 2 周前 · |