专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
TodayRss-海外RSS稳定源
目录
相关文章推荐
赛博禅心  ·  Drinking Plan 开售 ·  2 天前  
新机器视觉  ·  CVPR ... ·  2 天前  
哥飞  ·  2026 ... ·  2 天前  
量子位  ·  CVPR ... ·  2 天前  
今天看啥  ›  专栏  ›  机器之心

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

机器之心  · 公众号  · AI  · 2025-11-07 12:25
    

主要观点总结

本文介绍了大型语言模型(LLM)的运作方式及其局限性,并指出连续自回归语言模型(CALM)作为一种新方法,通过预测连续向量而非下一个词元,显著改善了性能与计算成本之间的权衡。文章详细阐述了CALM的核心思想、技术挑战、模型训练、性能评估以及实验效果。

关键观点总结

关键观点1: LLM的运作方式及其局限性

LLM通过逐个词元生成的方式运作,这虽然保证了生成的连贯性和逻辑性,但也导致了高昂的计算成本和响应延迟。业界一直在寻找解决这一瓶颈的方法。

关键观点2: CALM的核心思想

CALM通过预测下一个连续向量而非下一个词元,来改善语言模型的效率。这种方法使用高保真自编码器将K个词元压缩成一个连续向量,并以超过99.9%的准确率从中重构原始词元。

关键观点3: CALM面临的技术挑战

从离散到连续的转变带来了一系列技术挑战,包括向量表示、模型训练、性能评估、可控生成等。

关键观点4: CALM的实验效果

实验结果显示,CALM能够建立更优的性能-计算前沿。例如,一个371M参数的CALM-M模型,其性能与281M的Transformer基线相当,但所需的训练FLOPs减少了44%,推理FLOPs减少了34%。此外,随着语义带宽K的增加,模型的计算成本几乎成比例下降,而性能仅有轻微的回落。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照