专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

新智元 · 公众号 · AI · 2024-12-05 10:00

主要观点总结

BitNet系列的原班人马推出了新一代架构BitNet a4.8，启用了4位激活值，支持3 bit KV cache，为1 bit大模型带来了更高的效率。该架构采用混合量化和稀疏化策略，以减轻异常通道引入的量化误差。BitNet a4.8模型在相同的训练成本下实现了与前代BitNet b1.58相当的性能，并因为4位内核的计算红利实现了更快的推理速度。此外，该模型还有助于大规模LLM的部署和推理效率的提升。

关键观点总结

关键观点1: BitNet a4.8的特点和优势

BitNet a4.8为1 bit大模型启用了4位激活值，支持3 bit KV cache；采用混合量化和稀疏化策略，减轻异常通道引入的量化误差；在相同训练成本下实现高性能，并具备快速推理速度。

关键观点2: BitNet a4.8的模型架构

BitNet a4.8采用了与BitNet b1.58相同的布局，使用BitLinear替换注意力（MHA）和前馈网络（FFN）中的线性投影，从头开始学习1.58 bit权重。对于激活值，采用混合量化和稀疏化策略。

关键观点3: BitNet a4.8的实验结果

BitNet a4.8在语言模型困惑度和任务的平均准确性方面与LLaMA相当，相比BitNet b1.58，BitNet a4.8的平均精度几乎没有损失。此外，BitNet a4.8的稀疏性明显高于BitNet b1.58和LLaMA，表现出高激活稀疏性。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

新机器视觉 · 很严重了，大家别轻易离职。。

16 小时前

深度学习与NLP · 突发！北加州遭遇1940年以来最强地震，数十万部手机同时响起警报！

16 小时前

宝玉xp · Q：我们公司有十几个微服务，现在想让开发用 AI Agent 来-20260630221024

昨天

量子位 · GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

昨天

AI产品阿颖 · 让 AI 上夜班。

昨天

王者荣耀 · 第九届王者荣耀全国大赛总决赛7月6日开赛！准备好迎接电竞派对了吗？

1 年前

有书 · 当一个人熬到没有电话、没有聚会、没有社交……

1 年前

杭州日报 · 多人涉嫌恶意抹黑小米汽车！小米公司发文：已被缉拿归案

1 年前

极光新闻东北网 · 59岁李若彤官宣喜讯！未来或许有新身份

1 年前

中交二航院 · 二航院召开2025年第1次全面预算管理委员会会议

1 年前