专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  新智元

1-bit大模型还能再突破!新一代BitNet架构启用4位激活值

新智元  · 公众号  · AI  · 2024-12-05 10:00
    

主要观点总结

BitNet系列的原班人马推出了新一代架构BitNet a4.8,启用了4位激活值,支持3 bit KV cache,为1 bit大模型带来了更高的效率。该架构采用混合量化和稀疏化策略,以减轻异常通道引入的量化误差。BitNet a4.8模型在相同的训练成本下实现了与前代BitNet b1.58相当的性能,并因为4位内核的计算红利实现了更快的推理速度。此外,该模型还有助于大规模LLM的部署和推理效率的提升。

关键观点总结

关键观点1: BitNet a4.8的特点和优势

BitNet a4.8为1 bit大模型启用了4位激活值,支持3 bit KV cache;采用混合量化和稀疏化策略,减轻异常通道引入的量化误差;在相同训练成本下实现高性能,并具备快速推理速度。

关键观点2: BitNet a4.8的模型架构

BitNet a4.8采用了与BitNet b1.58相同的布局,使用BitLinear替换注意力(MHA)和前馈网络(FFN)中的线性投影,从头开始学习1.58 bit权重。对于激活值,采用混合量化和稀疏化策略。

关键观点3: BitNet a4.8的实验结果

BitNet a4.8在语言模型困惑度和任务的平均准确性方面与LLaMA相当,相比BitNet b1.58,BitNet a4.8的平均精度几乎没有损失。此外,BitNet a4.8的稀疏性明显高于BitNet b1.58和LLaMA,表现出高激活稀疏性。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照