ETT：打破原生多模态学习视觉瓶颈，重塑视觉tokenizer优化范式

arXiv每日学术速递 · 公众号 · 科技自媒体 · 2025-06-13 11:51

主要观点总结

本文主要介绍了由北京智源研究院多模态大模型研究中心等机构提出的一种全新的端到端视觉tokenizer调优方法——ETT（End-to-End Vision Tokenizer Tuning）。在多模态学习背景下，针对传统视觉tokenizer方法的缺陷，如视觉tokenizer的优化与下游任务训练相互割裂，难以满足丰富语义表示的下游任务需求等问题，ETT实现了视觉tokenization与目标自回归任务的联合优化，充分释放了视觉tokenizer在多模态学习中的潜力，为多模态任务带来了显著的性能提升。

关键观点总结

关键观点1: 多模态学习背景下视觉tokenizer的重要性及其面临的问题

视觉tokenizer作为连接视觉信息与下游任务的关键桥梁，其性能优劣直接决定了多模态模型的表现。然而，传统的视觉tokenization方法存在优化与下游任务训练相互割裂的问题，难以满足丰富语义表示的下游任务需求。

关键观点2: ETT（End-to-End Vision Tokenizer Tuning）的创新点与优势

ETT实现了视觉tokenization与目标自回归任务的联合优化，打破了传统方法中视觉tokenizer一旦训练完成便固定的常规，充分释放了视觉tokenizer在多模态学习中的潜力，为多模态任务带来了显著的性能提升。

关键观点3: ETT在多模态理解、多模态生成和视觉重构任务中的卓越性能表现

ETT在多模态理解任务中，如在GQA、TextVQA等特定任务评估中取得了优异成绩；在多模态生成任务中，如GenEval和T2I-CompBench等基准数据集上表现出色；在视觉重构任务中，保留了原始视觉tokenizer的丰富低级细节表示，并提升了高级语义表示能力。

关键观点4: ETT的局限性与未来发展潜力

尽管ETT已经取得了显著的性能提升，但目前方法仍存在局限性，如数据规模和模型容量的进一步扩大、从头开始设计视觉tokenizer的需求等。未来计划探索从头开始端到端训练视觉tokenizer，并扩展到图像和文本之外的其他模态，如视频和音频。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博