今天看啥  ›  专栏  ›  机器之心

真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法

机器之心  · 公众号  · AI  · 2025-06-05 12:40
    

主要观点总结

华为诺亚方舟实验室研究团队提出了Pangu DeepDiver模型,通过Search Intensity Scaling实现了LLM搜索引擎自主交互的新范式。该模型在WebPuzzle及多个基准测试上表现出卓越性能,验证了其在真实互联网环境下解决知识密集型问题的能力。文章详细描述了DeepDiver的创新之处、数据构建方法、训练流程、实验结果等。

关键观点总结

关键观点1: Pangu DeepDiver模型通过强化学习与真实互联网搜索引擎的结合,实现了Search Intensity Scaling,使模型能根据任务难度自适应调整搜索强度。

DeepDiver模型是华为诺亚方舟实验室研究团队的一项创新成果,该模型通过强化学习训练,能够在真实互联网环境下进行信息检索和推理。在WebPuzzle及多个基准测试中,Pangu DeepDiver模型展现出卓越的信息索取能力,特别是在解决知识密集型问题上表现出色。

关键观点2: WebPuzzle数据集的构建和用途

WebPuzzle数据集是DeepDiver模型训练的关键。它通过收集大部分LLM的cutoff knowledge date后的Wiki语料,然后罗列出与实体有关的特性作为谜面,增加解题难度。此外,WebPuzzle还包括基于现网真实用户问题及其搜索返回结果构建的数据,为模型提供丰富的训练样本。

关键观点3: DeepDiver模型的训练方法和流程

DeepDiver模型的训练分为冷启动阶段和强化学习阶段。在冷启动阶段,模型通过蒸馏teacher模型的回复掌握基本解题套路。在强化学习阶段,模型使用GRPO算法自主探索,对高质量探索路径给予奖励。训练过程中还采用了两种互补的奖励函数设计,稳定训练初期并帮助模型突破训练瓶颈。

关键观点4: DeepDiver模型的实验结果和表现

DeepDiver模型在WebPuzzle及多个基准测试上表现出卓越性能。特别是在WebPuzzle上,DeepDiver的表现远超蒸馏版本的模型,准确率达到38.1%。此外,DeepDiver还展现出优异的跨任务泛化能力,在多个数据集上表现卓越。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照