专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
今天看啥  ›  专栏  ›  DeepTech深科技

Mamba提出者再次挑战Transformer,打造首个无分词器语言模型H-Net,或成为通用基础模...

DeepTech深科技  · 公众号  · 科技媒体  · 2025-07-12 18:54
    

主要观点总结

文章介绍了美国卡内基梅隆大学助理教授和美国AI初创公司Cartesia的联合创始人Albert Gu和他的研究成果。他和团队最近提出了一种端到端的分层网络(H-Net)新型架构,该架构通过递归的、数据依赖的动态分块(DC)过程对原始数据进行压缩,代表首个真正端到端无分词器的语言模型。H-Net在自然语言处理中显著改进了通用序列建模,并有望成为一种新型的基础模型架构。

关键观点总结

关键观点1: Albert Gu 是美国卡内基梅隆大学的助理教授和美国AI初创公司Cartesia的联合创始人。

他因其联合提出的Mamba新型序列建模架构入选TIME 100 AI名单,并曾入选谷歌研究学者计划名单。

关键观点2: Albert Gu和团队提出了端到端的分层网络(H-Net)架构。

H-Net通过递归的、数据依赖的动态分块(DC)过程对原始数据进行压缩,是首个真正端到端无分词器的语言模型。

关键观点3: H-Net解决了分词问题并改进了通用序列建模。

这种架构具有诸多优势,包括提高模型的鲁棒性、可解释性和在其他语言上的优势。研究团队表示H-Net有望成为通用基础模型的核心架构。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照