|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
公众号 · AI · 3 周前 · · |
|
谈一谈对大模型对齐框架的反思及其改进思路 青稞AI · 公众号 · AI · 3 周前 · |
|
南京大学俞扬教授:通用奖励模型,早已内生于大型语言模型之中 青稞AI · 公众号 · AI · 4 周前 · |
|
将监督微调SFT和强化学习RL两种训练范式结合!中科院&美团等提出SRFT 青稞AI · 公众号 · AI · 4 周前 · |
|
公众号 · AI · 4 周前 · · |
|
公众号 · AI · 4 周前 · · |
|
高熵驱动,负向为王:熵感知强化学习如何重塑大模型推理 青稞AI · 公众号 · AI · 4 周前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
让你的奖励模型从偏好数据中生成它的不确定度 青稞AI · 公众号 · AI · 1 月前 · |
|
LLM中On-Policy与Off-Policy的本质区别是什么? 青稞AI · 公众号 · AI · 1 月前 · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |
|
公众号 · AI · 1 月前 · · |