📄️ 混合调度的亲和性、污点容忍设计思考
深入探讨AI算力场景下的混合调度设计思路,详细介绍基于Kubernetes的节点标签和污点设计方案,通过节点亲和性和污点容忍机制实现训练、推理、混部场景的智能调度策略,提供完整的Volcano Job和Deployment配置示例
📄️ 混部调度中如何控制在线服务的缩容逻辑
深入分析Kubernetes缩容机制的源码实现,详细解读Pod删除排序规则和pod-deletion-cost注解的工作原理。提供手动设置和自动化Controller两种方案,精确控制混部调度场景下在线推理服务的缩容逻辑,优先缩容混部资源池中的Pod,保留推理资源池中的Pod,确保服务稳定性
📄️ CPU亲和性与NUMA亲和性调度
深入探讨AI模型开发训练推理场景下的CPU亲和性与NUMA亲和性调度技术,介绍NUMA架构原理、GPU拓扑分析、Docker和Kubernetes环境下的亲和性配置方案,通过实际案例优化AI工作负载的性能表现
📄️ Docker中的CPU&NUMA亲和性配置
深入解析Docker容器中CPU和NUMA亲和性配置的原理与实践。详细说明cpuset-cpus和cpuset-mems参数的区别与配置方法,解释为什么CPU亲和性不等于NUMA内存亲和性,以及如何优化单GPU和多GPU任务的性能。涵盖PCIe通信、DMA传输、跨NUMA节点场景等核心概念,帮助您在GPU训练任务中获得10%-20%的性能提升。
📄️ Kubernetes中CPU&NUMA亲和性配置
深入解析Kubernetes中CPU和NUMA亲和性调度的完整实现方案。详细讲解Topology Manager、CPU Manager、Memory Manager和Device Manager四大核心组件的工作原理、配置方法和协同机制。涵盖kubelet完整配置示例、策略选项详解、NVIDIA GPU设备插件的NUMA感知功能、多种拓扑管理策略对比,以及实际测试案例和故障排查指南。适用于AI训练、推理等对CPU-GPU-内存局部性要求高的工作负载,助力性能优化和资源高效利用。