专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
今天看啥  ›  专栏  ›  极市平台

让Qwen3-0.6B拥有视觉,保姆级教程来了!

极市平台  · 公众号  · 科技媒体 AI媒体  · 2025-07-28 22:00
    

主要观点总结

本文介绍了如何将 SmolVLM2 视觉模块与 Qwen3-0.6B 进行模型拼接,并通过微调实现具备「超小规模+多模态+支持中文」特性的 Qwen3-SmVL。微调全程使用沐曦 GPU 完成,并提供完整的 Github 仓库与 SwanLab 记录。文章详细讲述了 SmolVLM2 的背景知识、模型拼接和微调思路、模型拼接实现和关键代码、微调数据集构建、微调方法与代码实现、以及微调训练与结果展示。并附上了代码及数据集链接汇总。

关键观点总结

关键观点1: SmolVLM2背景知识

SmolVLM2模型设计包含视觉模型层、特征映射层和大语言模型层。视觉模型层使用的是Google的Siglip模型,特征映射层是一个简单的MLP,大语言模型是SmolLM-135M版本。

关键观点2: 模型拼接和微调思路

模型拼接思路是调整SmolVLM2的上下文控制格式,使其与Qwen3兼容。替换模型文本部分,并重新初始化特征映射层。微调采用冻结模型参数,仅微调特征映射器和语言模型头。

关键观点3: 模型拼接实现和关键代码

模型拼接包括修改SmolVLM2的Tokenizers,替换SmolVLM2的SmolLM2模型为Qwen3-0.6B,并构建和替换特征映射层。

关键观点4: 微调数据集构建

使用HuggingFace团队整合的多模态数据集the Cauldron数据集,但文本内容都是英文,且数据集回复较短。后续考虑通过数据合成将部分数据翻译为中文。

关键观点5: 微调方法与代码实现

采用冻结模型参数微调,使用Teacher Forcing学习方法,损失是标准的交叉熵损失。训练环境使用沐曦C500 GPU,安装Huggingface全家桶。

关键观点6: 微调训练与结果展示

模型训练后使用狗狗图片配合问题进行推理,结果显示模型能理解图片、中文并给出正确回复。完整微调训练结果相比小批量训练效果更优,且模型完全保留了Qwen3-0.6B原有能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照