|
|
ACL 2026 | 不再“一个低秩打天下”:CPS-LoRA 用结构分块重写微调规则 青稞AI · 公众号 · AI · 2 周前 · |
|
|
扩散模型也会“刷分作弊”?CRD 让文生图 RL 真正可控了 青稞AI · 公众号 · AI · 2 周前 · |
|
|
DeepSeek-V4技术报告解读: 从架构到 Infra 的全栈重构 青稞AI · 公众号 · AI · 2 周前 · |
|
|
从 DeepSeek V4 的多专家 on-policy Distillation 反观人类学习模式 青稞AI · 公众号 · AI · 3 周前 · |
|
|
DeepSeek-V4 详细分析: 算法和模型结构 青稞AI · 公众号 · AI · 3 周前 · |
|
|
最大熵强化学习与 SAC:从 Greedy Policy 到 Boltzmann Policy 青稞AI · 公众号 · AI · 3 周前 · |
|
|
影响 OPD work 的因素有哪些?聊聊 Rethinking OPD 这一路 青稞AI · 公众号 · AI · 3 周前 · |
|
|
Oral新作:MAGICIAN开启主动建图新范式 青稞AI · 公众号 · AI · 3 周前 · |
|
|
直播预告!从 TTRL 到 URLVR:探讨一下大模型的无监督强化学习还能走多远? 青稞AI · 公众号 · AI · 3 周前 · |
|
|
大模型 RL 训练:计算流程全解析 青稞AI · 公众号 · AI · 3 周前 · |
|
|
54页论文!无监督 RLVR 的极限与反思 青稞AI · 公众号 · AI · 3 周前 · |
|
|
old policy 和 reference policy 到底有什么区别? 青稞AI · 公众号 · AI · 3 周前 · |
|
|
人大高瓴:无需干预,AI自主跑通23小时实验 青稞AI · 公众号 · AI · 3 周前 · |
|
|
系统聊聊 On-Policy Distillation 的原理 青稞AI · 公众号 · AI · 3 周前 · |
|
|
Oral论文!揭秘自动驾驶仿真数据的规模效应 青稞AI · 公众号 · AI · 3 周前 · |
|
|
Prefill-as-a-Service:跨机房异构 PD 分离的最后一块拼图是线性注意力? 青稞AI · 公众号 · AI · 3 周前 · |
|
|
直播预告!世界模型(World Model)是进化终点还是视觉幻象? 青稞AI · 公众号 · AI · 3 周前 · |
|
|
系统解读 Anthropic/OpenAI 如何监测前沿智能体行为? 青稞AI · 公众号 · AI · 3 周前 · |
|
|
直播预告!探索 CUA 的 ChatGPT 时刻 青稞AI · 公众号 · AI · 4 周前 · |
|
|
深度揭秘!Claude Code 模型 RL 训练中的Reward Hacking 青稞AI · 公众号 · AI · 4 周前 · |