今天看啥  ›  专栏  ›  斌叔OKmath

正如上周所承诺的,这里是使用强化学习算法 GRPO 训练语言模型-20250211195239

斌叔OKmath  · 微博  ·  · 2025-02-11 19:52
    

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照