🗃️ Kubeflow Trainer
2 items
📄️ 开发训练平台概述
全面梳理HPC开发训练平台的核心功能特性,涵盖数据管理与标注、在线开发Notebook、模型训练与微调(LoRA/QLoRA/PEFT)、模型管理与评估、镜像管理、资源调度、实验管理、多租户权限等模块,以及平台工作流与物料流转机制
📄️ 模型开发训练开源项目对比分析
深度调研对比7款主流AI模型开发训练平台开源项目:Kubeflow、ClearML、ZenML、Polyaxon、Determined AI、Cube Studio、MLRun,从功能特性、多租户支持、分布式训练、技术架构等维度进行全面分析
📄️ 云原生HPC生态组件对比分析(基于Volcano)
深入分析Volcano调度器HPC生态组件,涵盖HPC核心概念与关键能力、MPI/PyTorch/TensorFlow/PaddlePaddle/Horovod/Ray/Spark等Operator对比、Gang调度与队列管理集成方案,为云原生HPC平台选型提供参考