专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AIGC开放社区

Hugging Face开源顶级模型:双模式推理+128K上下文,最强3B

AIGC开放社区  · 公众号  · 大模型  · 2025-07-09 06:13
    

主要观点总结

本文主要介绍了全球著名大模型开放平台Hugging Face开源的顶级小参数模型SmolLM3。该模型具有30亿参数,性能超过其他同类开源模型,支持英语、法语、西班牙语、德语等6种语言,且支持深度思考和非思考双推理模式。文章还介绍了SmolLM3的架构细节、训练配置、训练数据和三阶段混合训练方法,以及SFT和APO的使用等。

关键观点总结

关键观点1: SmolLM3模型的特点和性能

SmolLM3是顶级小参数模型,性能大幅度超过同类产品,支持多种语言和双推理模式。

关键观点2: SmolLM3的架构细节

SmolLM3采用transformer解码器架构,使用了分组查询注意力、NoPE技术等,以提高效率和长上下文性能。

关键观点3: SmolLM3的训练配置和训练数据

SmolLM3的训练配置包括模型参数、优化器、峰值学习率等。训练数据采用三阶段混合训练方法,混合了网络、数学和代码数据。

关键观点4: SmolLM3的推理中期训练和后期训练

SmolLM3在推理中期训练融入推理能力,在后期训练构建了聊天模板,用户可通过标志激活推理或非推理模式。

关键观点5: SmolLM3的SFT和APO

SFT在推理中期训练阶段之后进行,该阶段在通用推理数据上训练模型。APO用于离策略模型对齐,提供更稳定的优化目标。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照