专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AIWalker

魔搭开源推理引擎 DashInfer,助力CPU服务器解锁大模型超强推理

AIWalker  · 公众号  ·  · 2024-05-27 22:00
    

主要观点总结

文章介绍了ModelScope推出的预训练大语言模型推理引擎DashInfer,用于在CPU上高效推理大模型,加速生成式AI应用的落地。DashInfer支持多种CPU架构,包括x86和ARMv9,并提供了C++和Python接口。文章详细阐述了DashInfer的特点、硬件支持、模型支持、推理流程、性能优化及未来规划。

关键观点总结

关键观点1: DashInfer是ModelScope推出的预训练大语言模型推理引擎,采用C++ Runtime编写,提供C++和Python语言接口,具有生产级别的高性能表现,适用于多种CPU架构。

DashInfer支持连续批处理和多NUMA推理,能够充分利用服务器级CPU的算力。提供高精度实现,结合OneDNN和自研汇编kernel,在ARM和x86上发挥硬件的最大性能。

关键观点2: DashInfer支持行业标准LLM推理技术,如连续批处理和基于请求的异步接口,支持流式输出和对每个请求的生成参数、请求状态等进行单独控制。

DashInfer支持主流的开源LLM模型,包括Qwen、LLaMA、ChatGLM等。使用DashInfer的InstantQuant(IQ)技术,无需训练微调即可实现weight-only量化加速,提高部署效率。

关键观点3: DashInfer在硬件支持方面,要求x86 CPU至少支持AVX2指令集,对于ARMv9 CPU则要求支持SVE指令集。

DashInfer支持的数据类型包括FP32、BF16和weight-only量化。在性能测试方面,Llama-2-7b-chat模型在DashInfer上的性能表现与llama.cpp进行了对比,详细性能测试结果可参考相关链接。

关键观点4: DashInfer提供了单NUMA和多NUMA的推理方案,通过多线程和线程池的结构进行调度。在多NUMA的CPU上,采用多进程的client-server架构,实现tensor parallel的模型推理。

DashInfer提供了丰富的API接口,包括模型加载与序列化、模型推理等。在API使用上,单NUMA和多NUMA的推理需要引用不同的头文件和库文件。未来规划包括加入首包加速、扩展Context Length、支持低bit量化和QAT量化支持等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照