专栏名称: 智见AGI
神州问学公众号是围绕生成式AI技术的交流社区,与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,助力企业的数字化转型
目录
今天看啥  ›  专栏  ›  智见AGI

在AI云原生时代应该如何应对复杂的算力环境

智见AGI  · 公众号  · 科技自媒体  · 2024-06-07 16:54
    

主要观点总结

本文主要介绍了AI云原生时代的算力革命和复杂算力环境的管理挑战,特别是在Kubernetes(K8s)上的计算任务管理。文章还讨论了不同AI应用场景中算力的使用情况和挑战,包括训练、推理和应用开发场景。此外,文章还介绍了国内外GPU厂商的现状和主流GPU在K8s上的调度支持情况。最后,文章重点介绍了云原生计算资源管理组件HAMI,它在云原生环境中对多种计算设备进行统一调度和管理的功能,包括设备共享、资源隔离等。文章还提供了HAMI的安装方法和实践案例。

关键观点总结

关键观点1: AI云原生时代的算力需求与管理挑战

随着AI和LLM的火热,算力资源变得紧缺,如何高效管理和使用算力资源成为必须面对的问题。在K8s上管理复杂的算力环境是一个巨大的挑战,因为当前的计算设备具有型号种类多、算力差异大等特点。

关键观点2: GPU厂商现状

目前,国际主流GPU厂商如英伟达、AMD、英特尔和谷歌都有各自的加速卡和解决方案。国内主流GPU厂商如海光信息、芯动科技、摩尔线程、华为海思和寒武纪等也在积极发展。但各个厂商的解决方案往往被分别维护,导致在使用时可能面临资源浪费的问题。

关键观点3: K8s上的计算资源调度现状

虽然已经有了许多计算资源的调度方案,但由于厂家不同,各个方案被分别维护,官方支持的Device Plugin往往不能支持GPU的资源隔离和资源共享等功能,导致在使用时往往会造成GPU资源分配不合理从而导致浪费情况。

关键观点4: HAMI的功能与优势

HAMI是一个云原生的K8S异构计算资源设备插件,它可以兼容原生的NVIDIA的设备插件的字段以及K8S的调度器,同时支持多种计算设备。HAMI通过接入不同厂商的docker-runtime以及Device Plugin,在更上层进行统一管理,抹平不同设备的调度差异,从而实现不同设备的统一调度。同时,HAMI可以实现GPU的细粒度划分,支持设备共享、设备内存控制、设备类型规范和设备uuid规范等功能。

关键观点5: HAMI的实践与安装

文章提供了HAMI的安装方法,包括使用Helm命令行快速安装的具体步骤。同时,还提供了使用HAMI进行资源调度的实践案例,如按照大小分配显存、按照核数分配、指定设备的型号、支持寒武纪设备和昇腾设备等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照