📄️ Volcano Session Plugins方法介绍
本文详细介绍了Volcano调度器框架中Session对象的31个Add*Fn方法,包括排序、调度决策、抢占回收、作业状态检查等各类插件扩展点的作用、使用场景和代码示例,为Volcano插件开发提供完整的技术参考。
📄️ Volcano调度器支持智算卡Quota改进方案
详细介绍Volcano调度器支持智算卡配额管理的改进方案,包括卡维度配额设计、单实例多卡部署配额管控、capacity-card自定义插件实现、节点卡型号自动识别、调度器扩展点设计等核心内容。方案支持GPU、NPU等多种智算卡类型,支持MIG/MPS等GPU Share技术,实现了精确的卡型号级别配额控制,解决了Volcano原生配额管理无法区分不同卡型号的痛点。
📄️ Volcano跨队列资源抢占驱逐改进设计
WIP
📄️ Volcano跨队列资源抢占驱逐测试
本文通过实际测试验证Volcano调度器的reclaim动作在跨队列资源抢占场景下的行为,重点测试在线推理服务和离线训练任务之间的资源抢占策略,包括不同优先级任务的抢占规则、资源回收机制以及使用自定义capacity-card插件实现GPU卡维度配额管理的实践经验。