📄️ Kubeflow Trainer In HPC
深入介绍Kubeflow Trainer在HPC场景中的应用,包括项目背景、核心架构、支持的框架(PyTorch/DeepSpeed/MPI)、训练任务创建流程、与Volcano调度器的集成方案,以及与Volcano Job的对比分析
📄️ Kubeflow Trainer PyTorch并行计算
深入介绍Kubeflow Trainer如何支持PyTorch框架实现HPC并行计算能力,包括HPC并行计算基础特性、PyTorch分布式训练原理、Kubeflow Trainer的CRD设计与组件架构、torchrun自动配置机制,以及算法工程师如何在代码中使用并行计算能力
📄️ Kubeflow Trainer CRD配置格式详解
详细介绍Kubeflow Trainer的三个核心CRD(TrainJob、TrainingRuntime、ClusterTrainingRuntime)的完整配置格式,包括每个配置项的注释说明、复杂配置项的表格解释、特殊标签和注解的使用,以及最佳实践指南
📄️ Kubeflow Trainer 环境变量自动注入
详细介绍Kubeflow Trainer在不同训练框架(PyTorch、DeepSpeed、MLX、TorchTune、MPI)下自动注入的环境变量,包括PET系列环境变量、标准分布式训练环境变量、MPI环境变量等,以及各框架的使用示例和最佳实践
📄️ Kubeflow Trainer 安装、部署及使用
详细介绍Kubeflow Trainer的真实安装、部署及使用过程,基于CPU的PyTorch分布式训练案例,包括ConfigMap、HostPath、镜像构建三种部署方式的完整实践指南