主要观点总结
本文主要介绍了蚂蚁集团在AI多模态领域的落地应用,特别是罗军在2025全球软件质量&效能大会(QECon)深圳场上关于基于大模型的AI多模态评测的演讲内容。演讲涵盖了AIGC生图、语音、视频等方面的评测工作,从评测指标、评测数据、评测能力和效果四个维度展开分享。针对AIGC生图评测,介绍了对新情况的定义、指标体系完善以及大模型评测方案VQA-GPT的应用。在AI商品图评测方面,描述了生成链路问题和人审环节存在的问题,并介绍了构建的AI商品图评测方案。此外,还涉及语音评测、TTS评测、视频评测等方面的内容,包括评测指标、数据集构建、模型应用等。最后,总结了多模态评测benchmark的构建和蚂蚁在AI多模态领域的贡献。
关键观点总结
关键观点1: 蚂蚁集团在AI多模态领域的落地应用
蚂蚁集团在AI多模态领域有很多应用,包括图像、语音、视频等方面的评测工作。蚂蚁积极参与了国家标准制定工作,并将一些好的实践撰写成了论文,入选了AAAI2025。
关键观点2: 基于大模型的AI多模态评测
蚂蚁集团采用大模型技术来进行AI多模态评测,包括AIGC生图、语音、视频等。例如,在AIGC生图评测中,采用了CLIP模型来计算文本和图像之间的相似度,并使用大模型工具进行一致性评测。在语音评测方面,引入了TN处理机制和ITN准确率等新技术来提高评测准确性。
关键观点3: AI商品图生成链路和人审环节的问题
在AI商品图生成链路中,存在生成图的质量问题、抠图模型精确度问题以及生成模型自身幻觉问题等。同时,在人审环节存在审核压力、审核偏差和结果不稳定等问题。为了解决这些问题,蚂蚁集团构建了一套AI商品图评测方案,包括两个模块:Efficient-SAM based Module和Reward Model。
关键观点4: 多模态评测的未来展望
蚂蚁集团构建了图像、语音、视频等多模态评测benchmark,并积极参与与业界的共建。在评测过程中,也参与国家标准制定工作,并将一些好的实践贡献到标准里。未来,蚂蚁集团期待在AI多模态评测领域跟广大业界同行多多交流,共建共享共同发展。
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。