专栏名称: 蚂蚁技术AntTech
分享蚂蚁集团的技术能力和技术文化。
目录
今天看啥  ›  专栏  ›  蚂蚁技术AntTech

听音识物种、闻声解难题:蚂蚁音频理解大模型首夺DCASE冠军

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-08-01 17:20
    

主要观点总结

蚂蚁集团在DCASE挑战赛中取得全球第一名,特别是在Audio Question Answering(AQA)赛道。文章详细介绍了比赛背景、任务难点、蚂蚁集团的技术方案和成果展望。

关键观点总结

关键观点1: DCASE挑战赛背景及意义

DCASE挑战赛是声音事件领域最权威的竞赛,已经举办了11届,吸引了全球顶尖声学团队参与。今年的DCASE 2025挑战赛共设置了6个赛道,其中首次设置了第5赛道Audio Question Answering(AQA)。

关键观点2: AQA赛道的技术难点

AQA任务要求模型能够处理各种不同类型的音频和其对应的问题,包括极端多样的音频条件、需要专业领域知识的问题、毫秒级精度的时间戳判断等。

关键观点3: 蚂蚁集团的技术方案

蚂蚁集团从数据构建、模型架构和训练范式三个方面进行了系统性优化。针对数据部分,利用文本大模型构建选择题训练集,并使用自动质量控制流程过滤低质量题目。在模型结构方面,把整个音频理解大模型分成三个层级,并在融合层和推理层进行了多种尝试。在训练范式方面,引入了微调(SFT)和强化学习(GRPO)等方法来优化模型性能。

关键观点4: 比赛成果及展望

通过比赛,蚂蚁集团的技术方案取得了显著成果,模型在多个任务类别上表现出强劲性能。展望未来,蚂蚁集团计划拓展音频理解大模型的能力边界,包括更多维度的音频理解、声音生成与理解的统一模型架构的研发,以及更高效的模型结构的探索等。

关键观点5: 蚂蚁集团AI身份智能团队的产品能力和技术布局

除了参加DCASE挑战赛,蚂蚁集团AI身份智能团队还落地了多个产品能力,包括流式视频核身&交互、泛终端核身和光鉴凭证防伪等。同时,团队还积极参与到行业标准的建设及前沿技术的探索中,累计发表CCF-A类论文20+篇,专利授权24项。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照