专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

机器之心 · 公众号 · AI · 2025-05-17 14:00

主要观点总结

华为盘古多模态生成团队提出一种名为Selftok的技术，将自回归（AR）建模应用于图像生成领域。该技术通过反向扩散过程将自回归先验融入视觉token，使像素流转化为严格遵循因果律的离散序列。在图像生成、图像编辑等任务中展现出卓越能力，实现了视觉重建、跨模态生成的新突破。该方案的核心是摒弃空间先验，保持重建精度同时提升图文模态兼容性，为dAR-VLM预训练与RL微调奠定基础。整体结构包括encoder、quantizer与decoder，通过可视化对比揭示了token表征的本质差异。在预训练阶段，模型架构基于LLaMA-3-8B进行扩展，引入多种数据输入格式帮助模态对齐。实验结果显示Selftok在图像生成、编辑等任务中达到或超越现有模型的效果。

关键观点总结

关键观点1: Selftok技术将自回归建模应用于图像生成，通过反向扩散过程融入视觉token。

Selftok技术通过将像素流转化为离散序列，实现了图像的严格因果建模。这是首次将自回归建模成功应用于图像生成领域。

关键观点2: 摒弃空间先验，提升图文模态兼容性。

传统的图像生成方法常常采用空间先验，而Selftok团队通过摒弃空间先验，实现了图像生成与文字描述的高度兼容性。

关键观点3: 强大的生成能力。

Selftok在图像生成、图像编辑等任务中展现出卓越的能力，实现了视觉重建、跨模态生成的新突破。

关键观点4: 创新性的预训练策略。

在预训练阶段，Selftok团队引入了多种数据输入格式和任务类型，帮助模型实现模态对齐和任务对齐，从而提升了模型的能力上限。

关键观点5: 实验结果显示超越现有模型的效果。

在多个实验测试中，Selftok的表现均超越现有模型，证明了其有效性和先进性。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

新智元 · 今天起，ChatGPT合体OpenClaw！Codex上线「养宠」，码农觉都不睡了

昨天

图灵人工智能 · 诺贝尔奖得主哈萨比斯爆料，虚拟细胞和超级智能的时代即将来临！并亲授逆袭科技巨头的AI创业秘籍

昨天

人工智能那点事 · 为救一个人，运-20出动！

昨天

新智元 · Claude Opus 4.7深夜「叛变」！群发20封夺命邮件，开发者凌晨被炸醒

2 天前

新智元 · 马斯克翻车了！一边告OpenAI，一边偷偷蒸馏ChatGPT

2 天前

柴府的医械茶园 · （待会删）请医疗销售低调浏览！！

1 年前

资管云 · 双11福利 | 会员全年最低价，精选课程免费学！

1 年前

明浩-rosicky311 · deepseekkimi阶跃星辰minimax豆包截止到今天，这-20250122214019

1 年前

吉林市场监管 · 新春佳节市监守护② | 延边州市场监管部门

1 年前

今日悉尼 · 吓死！中国夫妻入境澳洲，海关开箱发现“诡异”电饭煲！打开后所有人惊呆了

1 年前