算力调度 | John's Blog

📄️ 混合调度的亲和性、污点容忍设计思考

深入探讨AI算力场景下的混合调度设计思路，详细介绍基于Kubernetes的节点标签和污点设计方案，通过节点亲和性和污点容忍机制实现训练、推理、混部场景的智能调度策略，提供完整的Volcano Job和Deployment配置示例

📄️ 混部调度中如何控制在线服务的缩容逻辑

深入分析Kubernetes缩容机制的源码实现，详细解读Pod删除排序规则和pod-deletion-cost注解的工作原理。提供手动设置和自动化Controller两种方案，精确控制混部调度场景下在线推理服务的缩容逻辑，优先缩容混部资源池中的Pod，保留推理资源池中的Pod，确保服务稳定性

📄️ CPU亲和性与NUMA亲和性调度

深入探讨AI模型开发训练推理场景下的CPU亲和性与NUMA亲和性调度技术，介绍NUMA架构原理、GPU拓扑分析、Docker和Kubernetes环境下的亲和性配置方案，通过实际案例优化AI工作负载的性能表现

📄️ Docker中的CPU&NUMA亲和性配置

深入解析Docker容器中CPU和NUMA亲和性配置的原理与实践。详细说明cpuset-cpus和cpuset-mems参数的区别与配置方法，解释为什么CPU亲和性不等于NUMA内存亲和性，以及如何优化单GPU和多GPU任务的性能。涵盖PCIe通信、DMA传输、跨NUMA节点场景等核心概念，帮助您在GPU训练任务中获得10%-20%的性能提升。

深入解析Kubernetes中CPU和NUMA亲和性调度的完整实现方案。详细讲解Topology Manager、CPU Manager、Memory Manager和Device Manager四大核心组件的工作原理、配置方法和协同机制。涵盖kubelet完整配置示例、策略选项详解、NVIDIA GPU设备插件的NUMA感知功能、多种拓扑管理策略对比，以及实际测试案例和故障排查指南。适用于AI训练、推理等对CPU-GPU-内存局部性要求高的工作负载，助力性能优化和资源高效利用。

📄️ 混合调度的亲和性、污点容忍设计思考

📄️ 混部调度中如何控制在线服务的缩容逻辑

📄️ CPU亲和性与NUMA亲和性调度

📄️ Docker中的CPU&NUMA亲和性配置

📄️ Kubernetes中CPU&NUMA亲和性配置