无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

机器之心 · 公众号 · AI · 2025-07-12 12:50

主要观点总结

本文介绍了关于无 tokenizer 端到端语言模型的最新研究，重点介绍了 H-Net 分层网络的出现和其替代传统 tokenization 方法的效果。文中指出动态分块机制的优点和重要性，以及 H-Net 在不同语言和模态中的优势。

该模型通过动态分块机制取代传统的 tokenization 方法，实现内容和上下文自适应的分割策略。

H-Net 在计算资源和数据量对等的条件下，表现优于基于 BPE token 的强 Transformer 语言模型。通过多级分层迭代建模，模型性能得到进一步提升，展现出更优的数据规模效应。

H-Net 采用分层架构，通过递归、数据依赖的动态分块过程压缩原始数据。其动态分块机制包括路由模块和平滑模块，能够学习如何分割数据。

文中介绍了 H-Net 在不同实验中的表现，包括与不同模型的比较和在不同下游基准测试上的零样本准确率。实验结果表明 H-Net 达到了与 BPE Transformer 相当的性能，并验证了动态分块策略与精心设计的分层架构的有效性。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

量子位 · 字节Seed数学新模型，SOTA了

昨天

爱可可-爱生活 · 本文创新性地将检索增强生成（RAG）范式应用于机器人扩散策略，通-20250804055620

昨天

爱可可-爱生活 · 72+ 款 AI 工具，助你用几分钟完成数月工作，效率飞跃式提升-20250803215216

昨天

人工智能产业链union · 【AI】只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线|ACL25Oral

2 天前

爱可可-爱生活 · 掌握Prompt工程的终极指南：打造高效、精准且具上下文感知的语-20250802203445

3 天前

数码闲聊站 · 阿绿目前已量产的百瓦级硅电池，X8系/R13系会用：双电芯：54-20240801090312

1 年前

宝玉xp · 微软对 GitHub Copilot 还挺重视，CEO 亲自带货-20241219051830

7 月前

大庆日报 · 大庆市工人文化宫元旦期间开闭馆通知

7 月前

闵行消保委 · 看到“金标”就疯狂下单？都是假的，“含绒量想写多少写多少”！

7 月前

有车以后 · 过年前做保养，这些坑注意别踩，分分钟给你省钱！

6 月前