语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

FightingCV · 公众号 · · 2024-08-25 09:00

主要观点总结

本文介绍了Meta发布的最新研究成果Transfusion，这是一种训练单一统一模型的方法，可以无缝理解和生成离散和连续的模态，如文本和图像。通过结合语言建模和扩散模型，Transfusion能够在多模态基准测试中生成高质量图像，同时保持强大的文本生成能力。

随着多模态生成模型的不断发展，如何整合离散元素（如文本）和连续元素（如图像数据）成为了一个挑战。Meta的研究者在这项工作中提出了一种新的方法——Transfusion，这是一种训练单一模型的方法，可以同时预测离散文本token和扩散连续图像。

Transfusion的主要创新在于，它针对不同的模态使用了不同的损失函数进行训练，同时共享数据参数。研究者使用语言建模目标LLM应用于文本token的预测，使用扩散目标LDDPM应用于图像块的预测。通过简单地将每种模态上计算出的损失与平衡系数λ结合，研究者合并了这两种损失来优化同一模型。

实验表明，Transfusion是一种有前途的方法，可以用于训练真正的多模态模型。与Chameleon等模型相比，Transfusion在性能上表现更优秀，尤其是在处理混合模态数据时。此外，它还能生成类似规模的扩散模型和语言模型相媲美的图像和文本。

论文的共同一作包括Chunting Zhou和Lili Yu，他们都是Meta AI的研究科学家。Xuezhe Ma是南加州大学信息科学研究所的研究主管和计算机科学系的研究助理教授。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博