专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

TensorRT-LLM初探（三）最佳部署实践

GiantPandaLLM · 公众号 · 3D · 2024-08-18 23:34

主要观点总结

本文介绍了NVIDIA AI技术开放日关于TRT-LLM最佳部署实践的讲座内容，包括TensorRT-LLM的介绍、端到端workflow、如何debug、如何添加新的模型、安装过程、转换权重等关键点。文章还涵盖了调试方法、编译加速、模型精度测试以及新模型的添加流程等。

介绍TensorRT-LLM的功能和定位，包括大模型推理支持，模型结构，runtime调度，kernels优化，量化技术等。

描述使用TRT-LLM进行大模型推理的完整流程，包括转换权重格式、搭建网络结构、build engine、测试和运行等步骤。

介绍调试TRT-LLM的两种logger，可通过设置环境变量或传入参数开启，帮助定位错误位置。

说明TRT-LLM的安装方式，包括利用docker自行编译源码、通过pip安装、借用NVIDIA NGC提供的镜像等方式。

介绍TRT-LLM统一了convert接口的好处，以及权重转换后需要把权重塞到模型中的过程。

介绍添加新模型的流程，包括仿照llama的实现，实现convert权重相关的地方，以及如果官方提供的例子没有模型中某些层的实现时的处理方法。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博