今天看啥  ›  专栏  ›  蚂蚁技术AntTech

基于大模型的AI多模态评测

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-07-03 18:31
    

主要观点总结

本文主要介绍了蚂蚁集团在AI多模态领域的落地应用,特别是罗军在2025全球软件质量&效能大会(QECon)深圳场上关于基于大模型的AI多模态评测的演讲内容。演讲涵盖了AIGC生图、语音、视频等方面的评测工作,从评测指标、评测数据、评测能力和效果四个维度展开分享。针对AIGC生图评测,介绍了对新情况的定义、指标体系完善以及大模型评测方案VQA-GPT的应用。在AI商品图评测方面,描述了生成链路问题和人审环节存在的问题,并介绍了构建的AI商品图评测方案。此外,还涉及语音评测、TTS评测、视频评测等方面的内容,包括评测指标、数据集构建、模型应用等。最后,总结了多模态评测benchmark的构建和蚂蚁在AI多模态领域的贡献。

关键观点总结

关键观点1: 蚂蚁集团在AI多模态领域的落地应用

蚂蚁集团在AI多模态领域有很多应用,包括图像、语音、视频等方面的评测工作。蚂蚁积极参与了国家标准制定工作,并将一些好的实践撰写成了论文,入选了AAAI2025。

关键观点2: 基于大模型的AI多模态评测

蚂蚁集团采用大模型技术来进行AI多模态评测,包括AIGC生图、语音、视频等。例如,在AIGC生图评测中,采用了CLIP模型来计算文本和图像之间的相似度,并使用大模型工具进行一致性评测。在语音评测方面,引入了TN处理机制和ITN准确率等新技术来提高评测准确性。

关键观点3: AI商品图生成链路和人审环节的问题

在AI商品图生成链路中,存在生成图的质量问题、抠图模型精确度问题以及生成模型自身幻觉问题等。同时,在人审环节存在审核压力、审核偏差和结果不稳定等问题。为了解决这些问题,蚂蚁集团构建了一套AI商品图评测方案,包括两个模块:Efficient-SAM based Module和Reward Model。

关键观点4: 多模态评测的未来展望

蚂蚁集团构建了图像、语音、视频等多模态评测benchmark,并积极参与与业界的共建。在评测过程中,也参与国家标准制定工作,并将一些好的实践贡献到标准里。未来,蚂蚁集团期待在AI多模态评测领域跟广大业界同行多多交流,共建共享共同发展。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照