专栏 RSS订阅(公众号)
温馨提示:订阅专栏后它将会自动更新,无人订阅的专栏有可能不会更新。
专栏 二维码
TodayRss-海外RSS稳定源
他们也喜欢这个专栏
 • 
RSS订阅
今天看啥  ›  专栏  ›  SparksofAGI
人工智能前沿论文解读
免责声明:本专栏仅为信息导航参考,不代表原文立场或观点。 原专栏内容版权归原作者所有,如您为原作者并希望删除该专栏,请通过 【版权申诉通道】联系我们处理。
开通 RSS极速订阅 可分钟级获得文章
终端智能体怎么“练出来”:面向可扩展训练的数据工程方法论
SparksofAGI  ·  公众号  ·  ·  2 月前  · 
用“技能迁移”替代RL训练:更省成本的多智能体路由框架 SkillOrchestra
SparksofAGI  ·  公众号  ·  ·  2 月前  · 
有效推理链的本质:让任务“更可压缩”,用更少参数学得更好
SparksofAGI  ·  公众号  ·  ·  2 月前  · 
别再存轨迹了:SkillRL 让 Agent 把经验炼成技能,还会自我进化
SparksofAGI  ·  公众号  ·  ·  2 月前  · 
Transformer Q-Learning:用“注意力熵”刹住 Transformer 价值网络的...
SparksofAGI  ·  公众号  ·  ·  2 月前  · 
RAL:把强化学习的优化对象从“输出 token 序列”转向“内部注意力分布”
SparksofAGI  ·  公众号  ·  ·  2 月前  · 
让强化学习“听懂批注”:用多轮文本反馈把能力蒸馏进单轮策略
SparksofAGI  ·  公众号  ·  ·  3 月前  · 
把“旧推理”变成新起点:用离策略正确前缀加速大模型强化学习
SparksofAGI  ·  公众号  ·  ·  3 月前  · 
把“不可验证文本”变成“可验证奖励”:Golden Goose 的RLVR数据扩容技巧
SparksofAGI  ·  公众号  ·  ·  3 月前  · 
把 GitHub PR 变成可验证训练场:百万级软件工程环境自动构建框架
SparksofAGI  ·  公众号  ·  ·  3 月前  · 
异常值不是“训练噪声”:注意力沉降与残差沉降如何借助归一化稳定 Transformer
SparksofAGI  ·  公众号  ·  ·  3 月前  · 
自我改进式预训练:用“已对齐的强模型”把安全与事实性写进预训练
SparksofAGI  ·  公众号  ·  ·  3 月前  ·