今天看啥  ›  专栏  ›  深蓝AI

RL后训练越训越差?清华 & 北航Curious-VLA:问题不在RL,而是策略空间太“窄”了......

深蓝AI  · 公众号  ·  · 2026-03-17 17:32
    

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照