📄️ vGPU介绍及主流方案对比
全面介绍vGPU技术原理与核心价值,深入对比NVIDIA MPS、NVIDIA MIG、HAMi等主流GPU虚拟化方案,从隔离性、性能、易用性、兼容性等多维度分析用户态、内核态和硬件层虚拟化方案的优劣,为AI算力资源管理提供技术选型参考。
📄️ HAMi vGPU介绍及原理分析
HAMi是CNCF沙箱项目,提供Kubernetes环境下的GPU虚拟化解决方案。通过CUDA API劫持实现硬显存隔离和算力配额管理,支持多GPU厂商,零侵入应用,是目前最成熟的开源vGPU方案之一。
📄️ HAMi With Volcano
深入解析Volcano vGPU的完整执行流程和技术原理,包括deviceshare插件调度机制、Device Plugin资源分配、HAMi Core库注入方式(LD_LIBRARY_PATH vs LD_PRELOAD)、与独立HAMi部署的架构对比,以及Prometheus监控指标详解。基于源码分析,提供完整的组件交互流程图。
📄️ HAMi Volcano安装测试
详细介绍Volcano vGPU的完整部署流程,包括volcano-vgpu-device-plugin组件安装、调度器配置、节点标签污点设置、资源名称兼容性配置、实际测试验证和常见问题排查。基于HAMi Core实现GPU硬隔离,支持与NVIDIA Device Plugin资源名称兼容。
📄️ HAMi CUDA Driver API
深入解析HAMi Core通过LD_PRELOAD机制劫持的198个CUDA Driver API,涵盖设备管理、显存分配、内核启动、CUDA Graph等15个分类。详细说明20个核心劫持API如何实现显存配额检查和算力限制控制,以及178个透传API的作用。