专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

X平台RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

TodayRss-海外稳定RSS

真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

机器之心 · 公众号 · AI · 2025-06-05 12:40

主要观点总结

华为诺亚方舟实验室研究团队提出了Pangu DeepDiver模型，通过Search Intensity Scaling实现了LLM搜索引擎自主交互的新范式。该模型在WebPuzzle及多个基准测试上表现出卓越性能，验证了其在真实互联网环境下解决知识密集型问题的能力。文章详细描述了DeepDiver的创新之处、数据构建方法、训练流程、实验结果等。

关键观点总结

关键观点1: Pangu DeepDiver模型通过强化学习与真实互联网搜索引擎的结合，实现了Search Intensity Scaling，使模型能根据任务难度自适应调整搜索强度。

DeepDiver模型是华为诺亚方舟实验室研究团队的一项创新成果，该模型通过强化学习训练，能够在真实互联网环境下进行信息检索和推理。在WebPuzzle及多个基准测试中，Pangu DeepDiver模型展现出卓越的信息索取能力，特别是在解决知识密集型问题上表现出色。

关键观点2: WebPuzzle数据集的构建和用途

WebPuzzle数据集是DeepDiver模型训练的关键。它通过收集大部分LLM的cutoff knowledge date后的Wiki语料，然后罗列出与实体有关的特性作为谜面，增加解题难度。此外，WebPuzzle还包括基于现网真实用户问题及其搜索返回结果构建的数据，为模型提供丰富的训练样本。

关键观点3: DeepDiver模型的训练方法和流程

DeepDiver模型的训练分为冷启动阶段和强化学习阶段。在冷启动阶段，模型通过蒸馏teacher模型的回复掌握基本解题套路。在强化学习阶段，模型使用GRPO算法自主探索，对高质量探索路径给予奖励。训练过程中还采用了两种互补的奖励函数设计，稳定训练初期并帮助模型突破训练瓶颈。

关键观点4: DeepDiver模型的实验结果和表现

DeepDiver模型在WebPuzzle及多个基准测试上表现出卓越性能。特别是在WebPuzzle上，DeepDiver的表现远超蒸馏版本的模型，准确率达到38.1%。此外，DeepDiver还展现出优异的跨任务泛化能力，在多个数据集上表现卓越。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

量子位 · 空间智能卡脖子难题被杭州攻克！难倒GPT-5后，六小龙企业出手了

15 小时前

新智元 · 刚刚，大模型装上「鹰眼」！首创高刷视频理解，谷歌Gemini 2.5完败

昨天

爱可可-爱生活 · OpenVINO™ Toolkit 加速生产级 AI 应用开发与-20250826202136

昨天

宝玉xp · 回复@九子和小九:是，但是同样有调用工具的能力，类似于一个员工让-20250826112046

昨天

宝玉xp · //@黄建同学:这个好！微软刚开源了VibeVoice文本转语音-20250826093211

昨天

云南新闻网 · 今日新闻综述丨云南划定野生菌中毒高中低风险地区#以色列重申加沙地带永久停火条件……

1 年前

美式装修案例精选 · 卧室铺地砖好还是木地板好？听师傅一说，真懊悔没早知道

1 年前

中国教育报 · 冬至，可以陪孩子做这24件小事

8 月前

西湖之声 · 一动物园有熊出逃，仍未找到！

4 月前

材料研究进展 · 【催化新突破】包信和团队实现合成气高效转化，单分散ZnOx覆盖层成关键Nature子刊

3 月前