今天看啥  ›  专栏  ›  机器之心

200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来...

机器之心  · 公众号  · AI  · 2025-04-11 11:02
    

主要观点总结

字节跳动的豆包团队发布了新的推理模型Seed-Thinking-v1.5,该模型在多个权威基准测试中表现出卓越性能。文章详细介绍了该模型的技术特点、开发过程和创新点。

关键观点总结

关键观点1: 模型性能

Seed-Thinking-v1.5在AIME 2024测试中获得86.7分,Codeforces评测达到55.0分,GPQA测试达到77.3分,证明了其在STEM领域和编程方面的出色推理能力。此外,该模型在不同领域都表现出显著的泛化能力。

关键观点2: 技术架构

Seed-Thinking-v1.5采用混合专家模型(MoE)设计,总参数量为200B,实际激活参数仅为20B。团队还开发了BeyondAIME和Codeforces两个内部基准测试,以评估模型的泛化推理能力。

关键观点3: 开发过程和创新点

豆包团队在数据、强化学习算法和基础设施三个方面进行创新。他们整合了STEM问题、代码任务、逻辑推理和非推理数据,构建了新的高级数学基准BeyondAIME。为解决推理模型的强化学习训练不稳定问题,团队提出了VAPO和DAPO框架。此外,团队还针对可验证和不可验证的问题使用不同的奖励建模方法。

关键观点4: 奖励建模

团队设计了两个递进式的奖励建模方案:Seed-Verifier和Seed-Thinking-Verifier。后者通过提供详细推理路径的验证器,显著缓解了前者存在的奖励欺骗、预测的不确定性和边界情况处理失败等问题。

关键观点5: 基础设施和框架

团队开发了大语言模型强化学习系统,需要强大基础设施支持。他们采用了流式推演架构,并基于HybridFlow编程抽象构建了训练框架。此外,团队还实现了动态精度调度、三层并行架构和混合分布式训练框架等核心技术创新。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照