专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
今天看啥  ›  专栏  ›  AI前线

大模型端侧 CPU 部署最高提效 6 倍!微软亚研院新开源项目 T-MAC 技术解析来了

AI前线  · 公众号  · AI  · 2024-08-10 14:00
    

主要观点总结

本文介绍了微软亚洲研究院开发的T-MAC系统,它在边缘设备上高效部署低比特大型语言模型(LLMs)。T-MAC采用基于查找表(LUT)的计算范式,无需反量化,直接支持混合精度矩阵乘法,为在资源受限的边缘设备上实际部署低比特LLMs铺平了道路。与传统基于反量化的计算相比,T-MAC具有显著的性能优势,特别是在低比特场景下。此外,T-MAC还具有功耗优势,生成token的速度远超人类平均阅读速度。文章还介绍了T-MAC的其他优势和创新点。

关键观点总结

关键观点1: T-MAC系统简介

T-MAC是微软亚洲研究院开发的系统,用于在边缘设备上高效部署低比特大型语言模型(LLMs)。

关键观点2: T-MAC的计算范式

T-MAC采用基于查找表(LUT)的计算范式,无需反量化,直接支持混合精度矩阵乘法。

关键观点3: T-MAC的性能优势

与传统基于反量化的计算相比,T-MAC在低比特场景下具有显著的性能优势,生成token的速度远超人类平均阅读速度。

关键观点4: T-MAC的功耗优势

T-MAC具有显著的功耗优势,达到相同的生成速率时所需的核心数仅为原始系统的1/4至1/6。

关键观点5: T-MAC的开源与易用性

T-MAC现已开源,简单输入几条命令即可在笔记本电脑上高效运行Llama-3-8B-instruct模型。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照