专栏名称: 歸藏的AI工具箱

产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Huggingface 开源 SOTA 级别 3B LLM

歸藏的AI工具箱 · 公众号 · AI 科技自媒体 · 2025-07-09 12:21

主要观点总结

Huggingface发布了SmolLM3 3B LLM，该模型在性能上超越了Llama-3.2-3B和Qwen2.5-3B，与更大的4B模型Gemma3持平。除了模型本身，还开源了训练模型的方法、使用公共数据集和训练框架的细节。该模型具备双模式推理、多语言支持和长上下文能力，并采用了一系列优化技术。训练配置包括全局batch、优化器、训练时间和GPU使用情况。数据混合与多阶段训练策略以及长上下文与推理能力的提升方法也被详细介绍。最后提到了模型的合并技术和支持工具调用等特性。

关键观点总结

关键观点1: 模型性能超越Llama-3.2-3B和Qwen2.5-3B，与Gemma3持平

SmolLM3 3B LLM的性能表现优异，与其他模型相比具有竞争力。

关键观点2: 模型具备双模式推理、多语言支持和长上下文能力

SmolLM3 3B LLM提供了双模式推理、支持多种语言以及能够处理长达128K的上下文，显示出强大的功能性和灵活性。

关键观点3: 采用了一系列优化技术

包括Grouped Query Attention、NoPE、Intra-Document Masking和Embedding层无权重衰减等技术，提高了模型的表现和稳定性。

关键观点4: 训练配置和数据混合与多阶段训练策略

训练配置包括全局batch、序列长度、优化器、训练时间和GPU使用情况。采用了三阶段训练策略，逐步调整数据比例，并进行了中期训练，以提升特定能力。

关键观点5: 支持工具调用和其他特性

模型支持工具调用，包括XML和Python工具。还提到了双模式切换、后训练与模型对齐、偏好对齐以及模型合并技术等特性。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱生活的燃烧 · 海航这个BUG风险太大了

21 小时前

爱可可-爱生活 · 构建融合 Text2SQL 与 RAG 的混合智能代理工作流，开-20250802070914

昨天

新机器视觉 · 3D 光学测量技术

2 天前

日立变频中央空调 · 科技赋能人居！日立尊享空间空气解决方案亮相深圳中海技术交流会

2 天前

机器之心 · 驯服复杂表格：九天重磅开源，开启「人与表格对话」智能新时代

2 天前

3D视觉工坊 · UC伯克利开源！深度估计、光流、分割大一统！

8 月前

敦化市场监督管理局 · 全麦面包的消费提示

7 月前

汽车之家 · 10万块买SUV，空间够用，座椅加热/通风都有，性价比大战你选谁？

5 月前

洪观新闻 · 腾讯元宝超越豆包升至中国区苹果免费APP下载排行榜第二

5 月前

封面新闻 · 民宅火灾后惊现男尸，双脚被绑！澳门警方：排除他杀

5 月前