在AI云原生时代应该如何应对复杂的算力环境

智见AGI · 公众号 · 科技自媒体 · 2024-06-07 16:54

主要观点总结

本文主要介绍了AI云原生时代的算力革命和复杂算力环境的管理挑战，特别是在Kubernetes（K8s）上的计算任务管理。文章还讨论了不同AI应用场景中算力的使用情况和挑战，包括训练、推理和应用开发场景。此外，文章还介绍了国内外GPU厂商的现状和主流GPU在K8s上的调度支持情况。最后，文章重点介绍了云原生计算资源管理组件HAMI，它在云原生环境中对多种计算设备进行统一调度和管理的功能，包括设备共享、资源隔离等。文章还提供了HAMI的安装方法和实践案例。

关键观点总结

关键观点1: AI云原生时代的算力需求与管理挑战

随着AI和LLM的火热，算力资源变得紧缺，如何高效管理和使用算力资源成为必须面对的问题。在K8s上管理复杂的算力环境是一个巨大的挑战，因为当前的计算设备具有型号种类多、算力差异大等特点。

关键观点2: GPU厂商现状

目前，国际主流GPU厂商如英伟达、AMD、英特尔和谷歌都有各自的加速卡和解决方案。国内主流GPU厂商如海光信息、芯动科技、摩尔线程、华为海思和寒武纪等也在积极发展。但各个厂商的解决方案往往被分别维护，导致在使用时可能面临资源浪费的问题。

关键观点3: K8s上的计算资源调度现状

虽然已经有了许多计算资源的调度方案，但由于厂家不同，各个方案被分别维护，官方支持的Device Plugin往往不能支持GPU的资源隔离和资源共享等功能，导致在使用时往往会造成GPU资源分配不合理从而导致浪费情况。

关键观点4: HAMI的功能与优势

HAMI是一个云原生的K8S异构计算资源设备插件，它可以兼容原生的NVIDIA的设备插件的字段以及K8S的调度器，同时支持多种计算设备。HAMI通过接入不同厂商的docker-runtime以及Device Plugin，在更上层进行统一管理，抹平不同设备的调度差异，从而实现不同设备的统一调度。同时，HAMI可以实现GPU的细粒度划分，支持设备共享、设备内存控制、设备类型规范和设备uuid规范等功能。

关键观点5: HAMI的实践与安装

文章提供了HAMI的安装方法，包括使用Helm命令行快速安装的具体步骤。同时，还提供了使用HAMI进行资源调度的实践案例，如按照大小分配显存、按照核数分配、指定设备的型号、支持寒武纪设备和昇腾设备等。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博