OpenAI 研究员 Noam Brown：Mid-training 是新的 pre-trainin...

海外独角兽 · 公众号 · 科技公司 · 2025-07-02 20:00

主要观点总结

文章讨论了OpenAI在o1模型中提出RL叙事，以及DeepSeek发布的R1模型解开RL谜题后，AI行业进入新范式，智能下半场开启。Noam Brown分享了关于scaling test time compute的前沿观点，包括推理是模型涌现能力，模型需要摆脱harnessing，实现超级智能需要通用推理范式，未来数据比算力更稀缺，以及强化学习能更高效利用数据等。文章还探讨了关于推理能力的非共识观点，如推理不仅限于有明确奖励函数的任务，以及推理有助于实现对AI的对齐。文章还讨论了mid-training是新的pre-training，以及The Bitter Lesson带给multi-agent的启示。最后，Noam分享了AI Coding实践，包括使用Codex和Windsurf进行编程，以及AI在编程中的局限。

关键观点总结

关键观点1: OpenAI在o1模型中提出RL叙事，DeepSeek发布R1模型，AI行业进入新范式

OpenAI通过提出RL叙事和DeepSeek的R1模型，让AI行业进入新的范式，开启了智能的下半场。

关键观点2: Noam Brown分享前沿观点

Noam Brown分享了关于scaling test time compute的前沿观点，包括推理是模型涌现能力，模型需要摆脱harnessing，实现超级智能需要通用推理范式，未来数据比算力更稀缺，以及强化学习能更高效利用数据等。

关键观点3: 关于推理能力的非共识观点

文章探讨了关于推理能力的非共识观点，如推理不仅限于有明确奖励函数的任务，以及推理有助于实现对AI的对齐。

关键观点4: Mid-training是新的pre-training

Noam认为，mid-training是新的pre-training，不同于pre-training中的大规模语料学习，也不是post-training中的微调，而是一个独立阶段，可以拓展模型的泛化能力和实用性。

关键观点5: The Bitter Lesson带给multi-agent的启示

Noam认为，未来数十亿AI能建立起长期的协作与竞争，逐步积累知识，可能会催生一个属于AI的“文明”，且随着规模扩大，模型会自然涌现复杂的隐式世界模型。

关键观点6: Noam的AI Coding实践

Noam在日常工作中大量依赖Codex和Windsurf进行编程，认为这些工具能显著提高开发效率，并帮助他更直观地了解模型的优势和局限。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博