今天看啥  ›  专栏  ›  InfoQ

小米小爱同学:资源受限下,实现端侧大模型的高性能推理

InfoQ  · 公众号  · 科技媒体  · 2025-06-24 16:20
    

主要观点总结

本文是关于小米小爱同学端侧AI负责人杨永杰关于大模型在端侧部署的挑战和解决方案的采访。随着大模型能力提高,如何有效部署到端侧设备成为产业挑战。文章涵盖了模型体积、推理时延、功耗和更新机制等方面的要求,以及端侧推理框架的优化策略和业务场景的应用。杨永杰介绍了团队自研的大模型推理框架、端侧推理速度提升的细节、共享基座架构支持多任务并发的策略、跨芯片平台部署的设计等。

关键观点总结

关键观点1: 大模型在端侧部署的挑战

文章指出,当前大模型在端侧部署面临诸多挑战,包括资源限制、模型迭代速度快、更新机制受限等。

关键观点2: 团队自研的大模型推理框架

杨永杰介绍了团队通过自研推理框架实现超过180 tokens/s的端侧推理性能,通过动态输入与动态context支持、投机推理优化、量化与指令级优化等技术手段实现性能提升。

关键观点3: 共享基座架构支持多任务并发

为了应对多任务、多业务场景,团队采用共享基座架构,通过插件化能力和参数共享+差异定制的方式支持多个业务的并发推理。

关键观点4: 端侧设备硬件异构的适配

推理框架在跨芯片平台部署上采用模块化、通用化的设计,确保兼容性与性能的平衡。

关键观点5: 性能优化的组合策略

在实际工程中,性能优化组合如低比特量化、并行解码、带宽控制等,其优先级取决于技术价值、适用面、和其他手段之间的兼容性。

关键观点6: 未来最具突破性的方向和潜力业务场景

杨永杰认为,未来端侧大模型的突破方向在于硬件算力的提升和模型架构的算法演进,特别是Linear Attention等新型架构在资源敏感的长文本推理场景的应用前景广阔。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照