|
|
· 公众号 · AI · 5 月前 · |
|
|
如何解决RL阶段的Off-Policy问题?聊聊大模型时代的信任域策略优化TRPO 青稞AI · 公众号 · AI · 5 月前 · |
|
|
大语言模型的根本性局限,到底是什么? 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
让“思考”本身有价值!为什么模型 RL 后思维链长度持续变短? 青稞AI · 公众号 · AI · 5 月前 · |
|
|
为什么视频生成稀疏注意力做不好?中科院自动化所最新提出稀疏注意力纠偏新范式 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
聊聊 KV 缓存的工作原理,以及 AI Infra 与 ML Infra的区别 青稞AI · 公众号 · AI · 5 月前 · |
|
|
多模态跨学科推理深度不足?复旦联合上海AI Lab、牛津等发布多模态科学推理数据集 BMMR 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
纯干货!工业场景下,LLM Agent RL的一些实践感悟 青稞AI · 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |
|
|
· 公众号 · AI · 5 月前 · |