专栏名称: AIWalker

关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营，原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

XRSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

魔搭开源推理引擎 DashInfer，助力CPU服务器解锁大模型超强推理

AIWalker · 公众号 · · 2024-05-27 22:00

主要观点总结

文章介绍了ModelScope推出的预训练大语言模型推理引擎DashInfer，用于在CPU上高效推理大模型，加速生成式AI应用的落地。DashInfer支持多种CPU架构，包括x86和ARMv9，并提供了C++和Python接口。文章详细阐述了DashInfer的特点、硬件支持、模型支持、推理流程、性能优化及未来规划。

关键观点总结

关键观点1: DashInfer是ModelScope推出的预训练大语言模型推理引擎，采用C++ Runtime编写，提供C++和Python语言接口，具有生产级别的高性能表现，适用于多种CPU架构。

DashInfer支持连续批处理和多NUMA推理，能够充分利用服务器级CPU的算力。提供高精度实现，结合OneDNN和自研汇编kernel，在ARM和x86上发挥硬件的最大性能。

关键观点2: DashInfer支持行业标准LLM推理技术，如连续批处理和基于请求的异步接口，支持流式输出和对每个请求的生成参数、请求状态等进行单独控制。

DashInfer支持主流的开源LLM模型，包括Qwen、LLaMA、ChatGLM等。使用DashInfer的InstantQuant（IQ）技术，无需训练微调即可实现weight-only量化加速，提高部署效率。

关键观点3: DashInfer在硬件支持方面，要求x86 CPU至少支持AVX2指令集，对于ARMv9 CPU则要求支持SVE指令集。

DashInfer支持的数据类型包括FP32、BF16和weight-only量化。在性能测试方面，Llama-2-7b-chat模型在DashInfer上的性能表现与llama.cpp进行了对比，详细性能测试结果可参考相关链接。

关键观点4: DashInfer提供了单NUMA和多NUMA的推理方案，通过多线程和线程池的结构进行调度。在多NUMA的CPU上，采用多进程的client-server架构，实现tensor parallel的模型推理。

DashInfer提供了丰富的API接口，包括模型加载与序列化、模型推理等。在API使用上，单NUMA和多NUMA的推理需要引用不同的头文件和库文件。未来规划包括加入首包加速、扩展Context Length、支持低bit量化和QAT量化支持等。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博