今天看啥  ›  专栏  ›  英特尔中国

隆重推出 OpenVINO™ 2024.3: 增强的多头注意力 、OneDNN 及 vLLM 集成显...

英特尔中国  · 公众号  · 科技创业 科技自媒体  · 2024-08-13 10:00
    

主要观点总结

本文介绍了OpenVINO™ 2024.3的更新内容,重点强调了大型语言模型(LLM)的性能提升,以及在Hugging Face平台上的模型专区。文章还提到了OpenVINO™对Intel独立显卡上LLM性能的优化,以及与vLLM库的集成,以提高CPU性能。最后,文章还提供了其他相关资源和注意事项。

关键观点总结

关键观点1: OpenVINO™ 2024.3更新带来新功能和对现有功能的增强,特别是大型语言模型(LLM)的性能。

此版本包括在Hugging Face上的模型专区,可以更容易地访问和快速运行模型。此外,还提供了关于如何使用Optimum-Intel或OpenVINO™ GenAI软件包运行模型推理的信息。

关键观点2: OpenVINO™在Hugging Face上提供预优化模型专区。

这个专区包含了一系列预优化模型,如Phi-3、Mistral、Mixtral等,用户可以在不同精度下访问和运行这些模型。

关键观点3: OpenVINO™对Intel独立显卡上LLM性能的优化。

此次新版本旨在增强独立显卡上LLM和其他模型的性能。与之前的版本相比,此版本在Intel® Arc™独立显卡上的性能有所提升,特别是第一个token的延迟和第二个token的吞吐量性能。

关键观点4: OpenVINO™与vLLM库的集成提高了CPU性能。

通过集成vLLM库和连续批处理,OpenVINO™在为LLM提供模型服务时提高了CPU性能。此外,还利用全连接层优化的vLLM技术,融合多个全连接层(MLP)等,提高推理速度并减少内存使用。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照