📄️ Volcano介绍
Volcano是基于Kubernetes的高性能批处理系统,为机器学习、深度学习等大数据应用提供高级调度功能。
📄️ Volcano使用示例
本文提供了Volcano在Kubernetes中的实际使用示例,包括Pod和Deployment如何使用队列进行调度,以及Gang调度的配置和使用方法,帮助用户快速上手Volcano调度器。
📄️ Volcano常用注解
本文详细介绍了Volcano提供的各种注解(Annotations)及其在Pod和PodGroup资源上的应用,包括队列指定、资源预留、最小可用数量和优先级设置等,并提供了实际使用示例和最佳实践。
📄️ Volcano Queue详解
深入解析Volcano Queue的核心功能与配置方法,包括三级资源管理机制(capability/deserved/guarantee)、优先级与权重策略、队列状态控制、资源抢占机制、层级队列结构、节点组亲和性配置等高级特性。详细介绍capacity和proportion两种插件的资源分配策略,帮助用户构建高效的多租户资源管理体系。
📄️ Volcano Job详解
深入解析Volcano Job的核心特性与使用方法,包括批量调度机制、Job状态管理、重试策略配置、任务依赖关系等高级功能。详细介绍minAvailable参数实现的Gang Scheduling、灵活的重试机制以及基于DAG的任务依赖,帮助用户构建可靠的分布式计算和机器学习工作负载。
📄️ Volcano Queue&Job&Pod资源抢占设计
本文详细介绍了Volcano调度系统中Queue、Job和Pod三个层级的资源抢占设计与实现原理,以及它们之间的优先级关系和抢占机制。
📄️ Volcano Actions&Plugins详解
本文详细介绍了Volcano调度器中的Actions和Plugins机制,包括各种Actions的作用、应用场景和配置示例,以及如何通过这些机制实现灵活的任务生命周期管理和事件处理。
📄️ Volcano层级队列配置引发的调度器系统性故障问题
详细分析Volcano调度器中层级队列配置不当导致的系统性故障问题,包括capacity插件的工作原理、问题根因分析、源码逻辑梳理以及完整的解决方案。涵盖PodGroup一直处于Pending状态、调度器panic crash等典型故障场景的排查和修复方法。
📄️ Volcano层级队列使用的一些笔记
基于Volcano源码分析和实践经验总结的层级队列使用笔记,涵盖root队列机制、capacity插件配置、guarantee与capability的区别、层级队列的配置规则、Pod状态与资源计算逻辑、以及常见调度问题的排查方法。