专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
目录
今天看啥  ›  专栏  ›  AIGC开放社区

小红书开源首个大模型,11万亿非合成训练数据

AIGC开放社区  · 公众号  · 大模型 科技自媒体  · 2025-06-09 07:02
    

主要观点总结

小红书开源了其首个大模型——dots.llm1。这是一个包含1420亿参数的专家混合模型(MoE),在推理过程中仅激活140亿参数,能降低训练和推理成本的同时保持高性能。其最大特色是使用了11.2万亿token的非合成高质量训练数据。

关键观点总结

关键观点1: 模型架构与特色

dots.llm1使用了单向解码器Transformer架构,但将前馈网络替换为MoE。MoE将模型分为多个专家网络,每个专家网络专注于输入数据的不同方面。在推理过程中,根据输入标记的特性动态选择专家网络进行计算。这种稀疏激活方式减少了算力需求,同时保持了模型高性能。

关键观点2: 模型优化

dots.llm1在注意力层采用多头注意力机制(MHA)并引入了RMSNorm归一化操作。此外,还引入了无辅助损失的负载平衡策略来解决MoE架构中的负载平衡问题。在训练过程中,采用了AdamW优化器提高模型的性能和效率。

关键观点3: 训练数据与数据处理

dots.llm1使用了11.2万亿token的非合成高质量训练数据。数据处理采用三级处理流水线,通过一系列操作剔除低质内容,保留高价值数据。

关键观点4: 开源与实验验证

小红书开源了每1万亿token的中间训练检查点,以促进学术研究。该模型在MMLU、TriviaQA等基准测试中表现优异。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照