青稞AI - 公众号 - 文章列表 - 历史文章

注册登录

专栏 RSS订阅（公众号）

温馨提示：订阅专栏后它将会自动更新，无人订阅的专栏有可能不会更新。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

专栏二维码

TodayRss-海外RSS稳定源

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

他们也喜欢这个专栏

•

今天看啥 › 专栏 › 青稞AI

青年AI研究员idea加油站，AI开发者的新能源充电桩。

免责声明：本专栏仅为信息导航参考，不代表原文立场或观点。原专栏内容版权归原作者所有，如您为原作者并希望删除该专栏，请通过【版权申诉通道】联系我们处理。

最新

开通 RSS极速订阅可分钟级获得文章

DeepSeek-V4 详细分析: 算法和模型结构

青稞AI · 公众号 · AI · 2 月前 ·

最大熵强化学习与 SAC：从 Greedy Policy 到 Boltzmann Policy

青稞AI · 公众号 · AI · 2 月前 ·

影响 OPD work 的因素有哪些？聊聊 Rethinking OPD 这一路

青稞AI · 公众号 · AI · 2 月前 ·

Oral新作：MAGICIAN开启主动建图新范式

青稞AI · 公众号 · AI · 2 月前 ·

直播预告！从 TTRL 到 URLVR：探讨一下大模型的无监督强化学习还能走多远？

青稞AI · 公众号 · AI · 2 月前 ·

大模型 RL 训练：计算流程全解析

青稞AI · 公众号 · AI · 2 月前 ·

54页论文！无监督 RLVR 的极限与反思

青稞AI · 公众号 · AI · 2 月前 ·

old policy 和 reference policy 到底有什么区别？

青稞AI · 公众号 · AI · 2 月前 ·

人大高瓴：无需干预，AI自主跑通23小时实验

青稞AI · 公众号 · AI · 2 月前 ·

系统聊聊 On-Policy Distillation 的原理

青稞AI · 公众号 · AI · 2 月前 ·

Oral论文！揭秘自动驾驶仿真数据的规模效应

青稞AI · 公众号 · AI · 2 月前 ·

Prefill-as-a-Service：跨机房异构 PD 分离的最后一块拼图是线性注意力？

青稞AI · 公众号 · AI · 2 月前 ·

直播预告！世界模型（World Model）是进化终点还是视觉幻象？

青稞AI · 公众号 · AI · 2 月前 ·

系统解读 Anthropic/OpenAI 如何监测前沿智能体行为？

青稞AI · 公众号 · AI · 2 月前 ·

直播预告！探索 CUA 的 ChatGPT 时刻

青稞AI · 公众号 · AI · 2 月前 ·

深度揭秘！Claude Code 模型 RL 训练中的Reward Hacking

青稞AI · 公众号 · AI · 2 月前 ·

Rethinking On-Policy Distillation of Large Languag...

青稞AI · 公众号 · AI · 2 月前 ·

清华✖️UIUC ：为什么 OPD 经常不 work？

青稞AI · 公众号 · AI · 2 月前 ·

从 OPD 与反向 KL 的关系，到 OPD 的两种形态以及路线之争

青稞AI · 公众号 · AI · 2 月前 ·

用强化学习做知识蒸馏，方差太大怎么办？

青稞AI · 公众号 · AI · 2 月前 ·

关于移动版 · TodayRss海外 · RSS之家 · 卧龙AI搜索

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号