新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

机器之心 · 公众号 · AI · 2025-07-07 12:48

主要观点总结

本文报道了关于基于能量的Transformer（EBT）模型的研究进展。研究探讨了如何让模型通过无监督学习来自主思考，并介绍了一种新的能量模型EBT，该模型具备泛化能力强、训练稳定、高度可扩展等特性。研究发现，EBT通过优化预测过程模拟人类的思考过程，能够显著提高语言任务性能，同时在图像去噪任务中也有出色表现。对比传统的前馈式Transformer，EBT能够在预测过程中动态分配额外的计算资源，并通过自我验证机制提升性能。实验结果表明，EBT在数据规模扩大时，其预训练性能显著优于Transformer++方法。此外，EBT还能够学习并表达预测过程中的不确定性，在新场景中的泛化能力更强。总的来说，EBT为扩展模型的学习能力与思维能力提供了一种极具前景的新范式。

关键观点总结

关键观点1: EBT模型是通过无监督学习让模型自主思考的研究进展。

介绍了一种新的能量模型EBT，具备泛化能力强、训练稳定、高度可扩展等特性。

关键观点2: EBT通过优化预测过程模拟人类思考过程。

EBT能够显著提高语言任务性能，同时在图像去噪任务中也有出色表现。

关键观点3: EBT能够在预测过程中动态分配额外的计算资源。

通过自我验证机制提升性能，具备更强的泛化能力。

关键观点4: EBT能够学习并表达预测过程中的不确定性。

在新场景中的表现更强，提供了一种极具前景的新范式。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博