专栏名称: oldpan博客

老潘的博客，程序员眸中的fantasy life，分享AI技术干货，让大家少走弯路~

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

寿光报 · 她，山东首位！不写论文也能毕业？ · 11 小时前

反垄断前沿 · 对话暨南大学仲春：平台内卷打“价格战”无赢家 ... · 昨天

深圳教育 · 央视推荐！超适合孩子的宝藏纪录片，暑假看起来！ · 2 天前

PCEC 可持续发展服务 · PCEC大讲堂第172期直播预告丨AQ ... · 2 天前

轨道世界 · 11家竞标价值6700万 ... · 3 天前

今天看啥 › 专栏 › oldpan博客

vLLM vs TensorRT-LLM 性能对比测试二（Towards Optimal Batch...

oldpan博客 · 公众号 · 科技自媒体 · 2024-10-16 09:25

主要观点总结

本文测试了最新版（9.24）的trt-llm和vllm的性能，探讨了关键参数如最大批量大小和最大token数对两个框架性能的影响。实验设置包括调整这些参数，并使用定制数据集评估两种框架的吞吐量、首个token响应时间（TTFT）和每个输出token时间（TPOT）。文章还讨论了这些参数对预填充阶段和解码阶段的具体影响，并提供了关于如何调整这些参数的见解，以达到最优的LLM服务性能。

关键观点总结

关键观点1: 测试了trt-llm和vllm的性能

使用最新的版本进行了实验，并参考了NVIDIA/TensorRT-LLM github中的相关参数。

关键观点2: 探讨了关键参数对性能的影响

主要探讨了最大批量大小和最大token数这两个关键参数，它们对框架的吞吐量、TTFT和TPOT都有显著影响。

关键观点3: 使用了定制数据集进行评估

为了确保公平比较，使用了具有固定输入和输出长度的数据集，并设计了侧重于预填充阶段和解码阶段的不同数据集。

关键观点4: 讨论了参数对预填充和解码阶段的具体影响

分析了最大批量大小和最大token数在预填充阶段和解码阶段的不同影响，以及这些影响如何导致整体性能的变化。

关键观点5: 提供了参数调整的建议

根据实验结果，给出了关于如何调整最大批量大小和最大token数以优化LLM服务性能的见解。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

寿光报 · 她，山东首位！不写论文也能毕业？

11 小时前

反垄断前沿 · 对话暨南大学仲春：平台内卷打“价格战”无赢家，破局需共治

昨天

深圳教育 · 央视推荐！超适合孩子的宝藏纪录片，暑假看起来！

2 天前

PCEC 可持续发展服务 · PCEC大讲堂第172期直播预告丨AQ 2082—2025《海洋石油专业设备检测检验通则》对防爆电气设备的要求

2 天前

轨道世界 · 11家竞标价值6700万 2个地铁通信标段评标情况出炉

3 天前

南京本地宝 · 为什么医保个人账户的钱，有时无法共济给家人？

1 年前

东呈金润 · 2024.11.22涨停分析

8 月前

辉哥奇谭 · 早起改变人生

7 月前

小莉帮忙 · 王力宏郑州演唱会官宣取消！

3 月前

ZOL中关村在线 · 苹果正式官宣，WWDC 2025已定档！

2 月前