听音识物种、闻声解难题：蚂蚁音频理解大模型首夺DCASE冠军

蚂蚁技术AntTech · 公众号 · 程序员 · 2025-08-01 17:20

主要观点总结

蚂蚁集团在DCASE挑战赛中取得全球第一名，特别是在Audio Question Answering（AQA）赛道。文章详细介绍了比赛背景、任务难点、蚂蚁集团的技术方案和成果展望。

关键观点总结

关键观点1: DCASE挑战赛背景及意义

DCASE挑战赛是声音事件领域最权威的竞赛，已经举办了11届，吸引了全球顶尖声学团队参与。今年的DCASE 2025挑战赛共设置了6个赛道，其中首次设置了第5赛道Audio Question Answering（AQA）。

关键观点2: AQA赛道的技术难点

AQA任务要求模型能够处理各种不同类型的音频和其对应的问题，包括极端多样的音频条件、需要专业领域知识的问题、毫秒级精度的时间戳判断等。

关键观点3: 蚂蚁集团的技术方案

蚂蚁集团从数据构建、模型架构和训练范式三个方面进行了系统性优化。针对数据部分，利用文本大模型构建选择题训练集，并使用自动质量控制流程过滤低质量题目。在模型结构方面，把整个音频理解大模型分成三个层级，并在融合层和推理层进行了多种尝试。在训练范式方面，引入了微调（SFT）和强化学习（GRPO）等方法来优化模型性能。

关键观点4: 比赛成果及展望

通过比赛，蚂蚁集团的技术方案取得了显著成果，模型在多个任务类别上表现出强劲性能。展望未来，蚂蚁集团计划拓展音频理解大模型的能力边界，包括更多维度的音频理解、声音生成与理解的统一模型架构的研发，以及更高效的模型结构的探索等。

关键观点5: 蚂蚁集团AI身份智能团队的产品能力和技术布局

除了参加DCASE挑战赛，蚂蚁集团AI身份智能团队还落地了多个产品能力，包括流式视频核身&交互、泛终端核身和光鉴凭证防伪等。同时，团队还积极参与到行业标准的建设及前沿技术的探索中，累计发表CCF-A类论文20+篇，专利授权24项。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博