200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来...

机器之心 · 公众号 · AI · 2025-04-11 11:02

主要观点总结

字节跳动的豆包团队发布了新的推理模型Seed-Thinking-v1.5，该模型在多个权威基准测试中表现出卓越性能。文章详细介绍了该模型的技术特点、开发过程和创新点。

Seed-Thinking-v1.5在AIME 2024测试中获得86.7分，Codeforces评测达到55.0分，GPQA测试达到77.3分，证明了其在STEM领域和编程方面的出色推理能力。此外，该模型在不同领域都表现出显著的泛化能力。

Seed-Thinking-v1.5采用混合专家模型（MoE）设计，总参数量为200B，实际激活参数仅为20B。团队还开发了BeyondAIME和Codeforces两个内部基准测试，以评估模型的泛化推理能力。

豆包团队在数据、强化学习算法和基础设施三个方面进行创新。他们整合了STEM问题、代码任务、逻辑推理和非推理数据，构建了新的高级数学基准BeyondAIME。为解决推理模型的强化学习训练不稳定问题，团队提出了VAPO和DAPO框架。此外，团队还针对可验证和不可验证的问题使用不同的奖励建模方法。

团队设计了两个递进式的奖励建模方案：Seed-Verifier和Seed-Thinking-Verifier。后者通过提供详细推理路径的验证器，显著缓解了前者存在的奖励欺骗、预测的不确定性和边界情况处理失败等问题。

团队开发了大语言模型强化学习系统，需要强大基础设施支持。他们采用了流式推演架构，并基于HybridFlow编程抽象构建了训练框架。此外，团队还实现了动态精度调度、三层并行架构和混合分布式训练框架等核心技术创新。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博