📄️ GPU Operator
本文详细介绍NVIDIA GPU Operator的主要作用、组件构成、与GPU DevicePlugin的区别、Kubernetes兼容性以及部署方法,帮助用户在Kubernetes环境中更轻松地管理GPU资源。
📄️ GPU DCGM-Exporter监控方案
本文详细介绍GPU DCGM-Exporter监控方案,提供完整的监控指标列表和Prometheus配置示例,帮助用户构建高效的GPU监控系统。
📄️ GPU Share MPS&MIG具体操作与注意事项
详细介绍NVIDIA GPU共享技术MPS和MIG的原理、优缺点、适用场景以及在Kubernetes环境中的具体配置和操作步骤,帮助用户实现GPU资源的高效利用
📄️ GPU MIG拆卡后使用docker指定子卡执行
详细介绍NVIDIA GPU通过MIG拆卡后,如何在Docker容器中指定特定MIG子卡执行任务的两种方法:通过docker device参数和NVIDIA_VISIBLE_DEVICES环境变量,支持UUID和索引两种方式
📄️ GPU MIG拆卡后Pod偶发Pending/Terminating状态阻塞问题排查
深入分析GPU MIG拆卡后Pod一直处于Pending或Terminating状态的根因,通过kubelet源码分析发现GetPreferredAllocation接口阻塞问题,最终定位到NVIDIA驱动570.158.01版本的nvml初始化BUG,提供完整的故障排查思路和解决方案
📄️ GPU环境搭建指南:在裸机、Docker、K8S环境中使用GPU
详细介绍如何在裸机、Docker和Kubernetes环境中配置和使用NVIDIA GPU,包括GPU驱动安装、CUDA Toolkit配置、nvidia-container-toolkit部署、K8S device-plugin安装以及GPU监控配置的完整指南