今天看啥  ›  专栏  ›  海外独角兽

OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-trainin...

海外独角兽  · 公众号  · 科技公司  · 2025-07-02 20:00
    

主要观点总结

文章讨论了OpenAI在o1模型中提出RL叙事,以及DeepSeek发布的R1模型解开RL谜题后,AI行业进入新范式,智能下半场开启。Noam Brown分享了关于scaling test time compute的前沿观点,包括推理是模型涌现能力,模型需要摆脱harnessing,实现超级智能需要通用推理范式,未来数据比算力更稀缺,以及强化学习能更高效利用数据等。文章还探讨了关于推理能力的非共识观点,如推理不仅限于有明确奖励函数的任务,以及推理有助于实现对AI的对齐。文章还讨论了mid-training是新的pre-training,以及The Bitter Lesson带给multi-agent的启示。最后,Noam分享了AI Coding实践,包括使用Codex和Windsurf进行编程,以及AI在编程中的局限。

关键观点总结

关键观点1: OpenAI在o1模型中提出RL叙事,DeepSeek发布R1模型,AI行业进入新范式

OpenAI通过提出RL叙事和DeepSeek的R1模型,让AI行业进入新的范式,开启了智能的下半场。

关键观点2: Noam Brown分享前沿观点

Noam Brown分享了关于scaling test time compute的前沿观点,包括推理是模型涌现能力,模型需要摆脱harnessing,实现超级智能需要通用推理范式,未来数据比算力更稀缺,以及强化学习能更高效利用数据等。

关键观点3: 关于推理能力的非共识观点

文章探讨了关于推理能力的非共识观点,如推理不仅限于有明确奖励函数的任务,以及推理有助于实现对AI的对齐。

关键观点4: Mid-training是新的pre-training

Noam认为,mid-training是新的pre-training,不同于pre-training中的大规模语料学习,也不是post-training中的微调,而是一个独立阶段,可以拓展模型的泛化能力和实用性。

关键观点5: The Bitter Lesson带给multi-agent的启示

Noam认为,未来数十亿AI能建立起长期的协作与竞争,逐步积累知识,可能会催生一个属于AI的“文明”,且随着规模扩大,模型会自然涌现复杂的隐式世界模型。

关键观点6: Noam的AI Coding实践

Noam在日常工作中大量依赖Codex和Windsurf进行编程,认为这些工具能显著提高开发效率,并帮助他更直观地了解模型的优势和局限。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照