专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

阿里开源 Qwen3 系列“混合”推理模型，可开关快慢思考，全面超越 Llama 4

DeepTech深科技 · 公众号 · 科技媒体 · 2025-04-29 07:42

主要观点总结

本文介绍了阿里巴巴Qwen Team发布的Qwen3系列大型语言模型的新成员。该系列涵盖了从小型到超大型的多款车型，旨在满足不同应用场景的需求。其中，旗舰模型Qwen3-235B-A22B和MoE模型Qwen3-30B-A3B的表现引人注目。Qwen3系列还包含六款传统的Dense架构模型，所有模型权重均已开源。Qwen3系列在代码生成与理解、数学推理、通用能力等关键领域表现优异，并引入了思考/非思考两种可切换的思考模式。此外，该系列还改进了多语言支持、Agent能力和代码能力，并优化了训练方法和后训练流程。

关键观点总结

关键观点1: Qwen3系列大型语言模型发布

Qwen Team发布了Qwen3系列，旨在满足不同应用场景的需求。

关键观点2: 多种模型涵盖不同规模和应用

Qwen3系列包括旗舰模型Qwen3-235B-A22B、MoE模型Qwen3-30B-A3B以及六款Dense架构模型。

关键观点3: 模型表现优异

Qwen3系列在基准测试中表现亮眼，参数量较小的模型也能匹敌或超越参数量更大的模型。

关键观点4: 思考模式的引入

Qwen 3系列最大的亮点是引入了思考 / 非思考两种可切换的思考模式，允许用户根据任务需求在推理深度和响应速度之间进行权衡。

关键观点5: 多语言支持和Agent能力优化

Qwen3系列支持多达119种语言和方言，并优化了Agent能力和代码能力。

关键观点6: 训练方法和后训练流程的优化

Qwen3系列的训练方法和后训练流程进行了优化，包括基础预训练、知识密集型数据的使用、高质量长上下文数据的引入等。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

IT之家 · 【追觅 Qi2 磁吸支架充电宝 219 → 151 元清仓，支持-20260522155654

昨天

DeepTech深科技 · 世界最小六轴力传感器问世，上海交通大学杨建龙团队用光场与AI重塑医疗感知

昨天

创业邦 · 苏州工业园区又冲出一个IPO！北大校友51岁做创新药，64岁上市

昨天

IT之家 · 【华硕上线背插主板 TUF GAMING Z890-BTF WI-20260522084340

昨天

IT之家 · 38.99万元起小米YU7 GT发布；比亚迪辟谣“收购玛莎拉蒂”；特斯拉监督版FSD官宣入华；腾讯官宣操作系统级AI助手马维斯；拉勾被曝破产...

昨天

新浪科技 · 【#极氪法务部回应与SU7对撞测试#：#极氪称未与任何人合作对撞-20240816221000

1 年前

西湖之声 · 明天反转！雷雨大风，局部有暴雨！杭州人这件事等等再做…

1 年前

法治进行时 · 五名年轻游客爬山迷路，北京门头沟消防紧急搜救

10 月前

解螺旋 · 心脏病诊断迎来新突破！告别单一标准！研究表明：使用人口学调整的心肌肥厚阈值可减少超诊断，同时提高检测敏感性！

7 月前

CFW服装人才网 · 营业利润同比增长39.4%！这家运动品牌营收创新高

6 月前