专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  机器之心

图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

机器之心  · 公众号  · AI  · 2025-05-17 14:00
    

主要观点总结

华为盘古多模态生成团队提出一种名为Selftok的技术,将自回归(AR)建模应用于图像生成领域。该技术通过反向扩散过程将自回归先验融入视觉token,使像素流转化为严格遵循因果律的离散序列。在图像生成、图像编辑等任务中展现出卓越能力,实现了视觉重建、跨模态生成的新突破。该方案的核心是摒弃空间先验,保持重建精度同时提升图文模态兼容性,为dAR-VLM预训练与RL微调奠定基础。整体结构包括encoder、quantizer与decoder,通过可视化对比揭示了token表征的本质差异。在预训练阶段,模型架构基于LLaMA-3-8B进行扩展,引入多种数据输入格式帮助模态对齐。实验结果显示Selftok在图像生成、编辑等任务中达到或超越现有模型的效果。

关键观点总结

关键观点1: Selftok技术将自回归建模应用于图像生成,通过反向扩散过程融入视觉token。

Selftok技术通过将像素流转化为离散序列,实现了图像的严格因果建模。这是首次将自回归建模成功应用于图像生成领域。

关键观点2: 摒弃空间先验,提升图文模态兼容性。

传统的图像生成方法常常采用空间先验,而Selftok团队通过摒弃空间先验,实现了图像生成与文字描述的高度兼容性。

关键观点3: 强大的生成能力。

Selftok在图像生成、图像编辑等任务中展现出卓越的能力,实现了视觉重建、跨模态生成的新突破。

关键观点4: 创新性的预训练策略。

在预训练阶段,Selftok团队引入了多种数据输入格式和任务类型,帮助模型实现模态对齐和任务对齐,从而提升了模型的能力上限。

关键观点5: 实验结果显示超越现有模型的效果。

在多个实验测试中,Selftok的表现均超越现有模型,证明了其有效性和先进性。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照