专栏名称: 智东西

智东西－聚焦智能变革，服务产业升级！作为智能行业新锐媒体，智东西专注五大领域：VR/AR；AI/机器人/无人机；智能汽车/智能出行；智能家居/物联网；智能穿戴/智能医疗，通过内容、活动、报告以及社群等方式助力“智能＋”时代的创业和产业升级。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

小红书开源首个大模型，中文评测超越DeepSeek-V3

智东西 · 公众号 · 科技媒体 · 2025-06-10 19:32

主要观点总结

本文介绍了小红书开源的大型语言模型dots.llm1，该模型具有1420亿参数，采用MoE（混合专家）架构。它在中英文、数学、对齐等任务上表现出色，特别是其使用11.2万亿非合成数据进行预训练，显示出通过高效设计和高质量数据扩展大型语言模型能力边界的潜力。文章还介绍了团队在数据处理、性能成本效益、基础设施和模型动力学的开放可访问性等方面的贡献。

关键观点总结

关键观点1: dots.llm1模型的特点和性能

具有1420亿参数，采用MoE架构；在多种任务上表现出与阿里Qwen3-32B接近的性能；预训练使用了11.2万亿非合成数据；仅激活14B参数即可实现高效推理。

关键观点2: 数据处理和训练方法的创新

团队提出了可扩展且细粒度的三阶段数据处理框架；采用创新的MoE全对多通信和计算重叠配方提高计算效率；以开源形式发布中间训练检查点，促进大型模型动力学的理解和LLM领域的创新。

关键观点3: 模型的动力学和效果评估

dots.llm1在中文和英文的多个基准测试中表现出色；在数学表现上，dots.llm1.inst在AIME24上获得33.1分，凸显高级问题解决能力；在C-Eval上达到92.2分，超过包括DeepSeek-V3在内的所有模型。

关键观点4: 模型的后训练和微调

团队在后训练阶段对模型进行了监督微调；使用指令调优实例进行微调，提高模型在关键领域的性能；通过拒绝采样微调（RFT）增强模型在特定领域的能力。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

36氪 · 绕开中介，年轻人决定自己卖房

19 小时前

互联网AI早读课 · 美团跌回64块，我用一把最笨的尺子量了量

21 小时前

新浪科技 · 【#本田2025财年巨亏4239亿日元##本田上市69年首次亏损-20260626205023

2 天前

科技每日推送 · vivo 最新一代折叠机发布，7999 起

2 天前

极客公园 · 当使用企业数据的从「人」变成「AI」，阿里云重做了一套基础设施

2 天前

英国报姐 · 我在新疆盖木屋：提前“退休”的生活

2 年前

虎嗅APP · 英特尔想动高通的奶酪

1 年前

深度学术搜索 · 别再用谷歌翻译了，这才是文献阅读管理的战斗机！

1 年前

亚太家居网 · 菲林格尔易主国资！金亚伟接棒丁福如执掌25%股权，老牌家居求变破局

1 年前

九派新闻 · 男子被打后还手，致一人倒地抢救无效死亡，因故意伤害被判八年，辩护律师：死者有高血压，事发前饮酒

11 月前