专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  智东西

小红书开源首个大模型,中文评测超越DeepSeek-V3

智东西  · 公众号  · 科技媒体  · 2025-06-10 19:32
    

主要观点总结

本文介绍了小红书开源的大型语言模型dots.llm1,该模型具有1420亿参数,采用MoE(混合专家)架构。它在中英文、数学、对齐等任务上表现出色,特别是其使用11.2万亿非合成数据进行预训练,显示出通过高效设计和高质量数据扩展大型语言模型能力边界的潜力。文章还介绍了团队在数据处理、性能成本效益、基础设施和模型动力学的开放可访问性等方面的贡献。

关键观点总结

关键观点1: dots.llm1模型的特点和性能

具有1420亿参数,采用MoE架构;在多种任务上表现出与阿里Qwen3-32B接近的性能;预训练使用了11.2万亿非合成数据;仅激活14B参数即可实现高效推理。

关键观点2: 数据处理和训练方法的创新

团队提出了可扩展且细粒度的三阶段数据处理框架;采用创新的MoE全对多通信和计算重叠配方提高计算效率;以开源形式发布中间训练检查点,促进大型模型动力学的理解和LLM领域的创新。

关键观点3: 模型的动力学和效果评估

dots.llm1在中文和英文的多个基准测试中表现出色;在数学表现上,dots.llm1.inst在AIME24上获得33.1分,凸显高级问题解决能力;在C-Eval上达到92.2分,超过包括DeepSeek-V3在内的所有模型。

关键观点4: 模型的后训练和微调

团队在后训练阶段对模型进行了监督微调;使用指令调优实例进行微调,提高模型在关键领域的性能;通过拒绝采样微调(RFT)增强模型在特定领域的能力。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照