专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外稳定RSS

返璞归真！MIT何恺明再次颠覆生成模型：抛弃“去噪”，Diffusion模型直接预测干净图像！

图灵人工智能 · 公众号 · AI · 2025-11-23 06:31

主要观点总结

本文回归扩散模型中“去噪”的核心理念，展示了一个在原始像素上操作的、简单而强大的“Diffusion + Transformer”范式是可行的。通过遵循流形假设，即自然数据位于一个低维流形上，研究者在ImageNet上实现了强大的结果，并且可以优雅地扩展到1024分辨率。这项工作通过纯粹的图像Transformer（JiT模型）实现了一个自包含的生成模型，无需依赖分词器、预训练或辅助损失。该工作有望成为在其他难以设计分词器的科学领域找到更广泛应用的基础。

关键观点总结

关键观点1: 回归扩散模型中“去噪”的核心理念，展示“Diffusion + Transformer”范式的可行性。

本文通过将扩散模型与Transformer结合，通过去噪的方式实现图像生成，取得了显著的效果。

关键观点2: 遵循流形假设，即自然数据位于一个低维流形上。

本文基于流形假设，认为自然图像数据存在于一个低维流形上，从而实现了对图像的有效表示和学习。

关键观点3: 使用纯粹的图像Transformer（JiT模型）实现自包含的生成模型。

本文提出的JiT模型是一个纯粹的图像Transformer，可以在原始像素上操作，并且无需依赖分词器、预训练或辅助损失。

关键观点4: 取得强大的生成结果，并优雅地扩展到1024分辨率。

本文的模型在ImageNet上取得了强大的生成结果，并且可以扩展到更高的分辨率，如1024分辨率，展示了其良好的可扩展性。

关键观点5: 有望成为在其他领域找到更广泛应用的基础。

本文的工作有望为其他难以设计分词器的科学领域提供启示和借鉴，推动相关领域的发展。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

AI前线 · IT员工抄公司量化代码赚8千万，被罚1.7亿；传毫末智行停工解散、赔偿不明；实习生抽中显卡被公司要求上交？回应来了 | AI周报

19 小时前

机器之心 · Karpathy组建大模型「议会」，GPT-5.1、Gemini 3 Pro等化身最强智囊团

21 小时前

机器之心 · 2025宝山·智能机器人产业大会暨嘉年华隆重开幕

昨天

黄建同学 · //@菊好养:太强了真的太强了-20251121181353

2 天前

人工智能产业链union · 【报告】XR专题：2025年XR行业发展白皮书（附PDF下载）

2 天前

槽值 · 卷哭百万人的天坑专业，毕业月薪三千

1 年前

粉体网 · 石英尖端应用，第一个就被惊艳到了

1 年前

江苏省招就中心 · 2024下半年南水北调江苏水源公司社会招聘公告

11 月前

大皖新闻 · 刚刚！柯洁直播还原判罚现场，称比赛完陷入了黑暗之中！“柯洁，永不妥协”

10 月前

灰产圈 · CBA 青岛男篮主帅刘维伟被曝出轨，小三丈夫头顶绿帽与情敌共餐，杨鸣无辜沦为“头疗店打卡工具人”

7 月前