|
|
半形式化“证书式”推理:让代码代理在不执行的前提下更可靠 SparksofAGI · 公众号 · · 2 月前 · |
|
|
异构大模型一起练:共享可验证轨迹,让每个模型都变强、成本减半 SparksofAGI · 公众号 · · 2 月前 · |
|
|
把“记忆带来的探索力”蒸馏进参数:EMPO²如何训练更会探索的智能体 SparksofAGI · 公众号 · · 2 月前 · |
|
|
从“语言扩展”到“世界建模”:统一多模态预训练的关键变量与尺度规律 SparksofAGI · 公众号 · · 2 月前 · |
|
|
预训练“挑数据”:OPUS用优化器视角动态选token,30B训出200B的效果 SparksofAGI · 公众号 · · 2 月前 · |
|
|
熵为何在强化微调中“塌缩”:从单个 token 更新推导出的判别量与控熵剪裁 SparksofAGI · 公众号 · · 2 月前 · |
|
|
用 Pull Request 链训练长程智能体:daVinci-Agency 的数据合成范式 SparksofAGI · 公众号 · · 2 月前 · |
|
|
从预训练源头“削弱”能力:Token 级数据过滤如何让模型学不会医学 SparksofAGI · 公众号 · · 3 月前 · |