Volcano v1.13发布,大模型训练推理调度能力全面增强,这是不是意味着更高效?
摘要:本文分享自华为云社区《Volcano v1.13 重磅发布!大模型训练与推理等调度能力全面增强》,作者:云容器大未来。 北京时间2025年9月29日,Volcano v1.13 版本[1]正式发布。本次更新在多方面进行了功能增强,为用户提供
本文分享自华为云社区《Volcano v1.13 重磅发布!大模型训练与推理等调度能力全面增强》,作者:云容器大未来。
北京时间2025年9月29日,Volcano v1.13 版本[1]正式发布。本次更新在多方面进行了功能增强,为用户提供更完善的云原生批量计算解决方案。
新版本主要亮点包括:新增对大模型推理LWS的支持;新增定时任务管理能力;提供更灵活的网络拓扑发现机制,并增强对主流AI计算框架的兼容性。同时在混部架构上实现了重要改进,提升了在不同环境中的部署灵活性。这些增强功能共同提升了Volcano[2]在复杂工作负载管理中的实用性和易用性,旨在打造更高效、更稳定的大规模计算平台,为AI时代的基础设施提供关键调度支撑。
大模型推理场景支持 LeaderWorkerSet
LeaderWorkerSet (LWS)[3]是一个用于在 Kubernetes 上部署一组 Pod 的 API。它主要用于解决 AI/ML 推理工作负载中的多主机推理,尤其是需要将大型语言模型(LLM)分片并跨多个节点上的多个设备运行的场景。
Volcano自开源以来,积极与上下游生态进行集成,构建了完善的AI、大数据等批量计算社区生态,LWS在v0.7[4]的版本中,原生集成了Volcano的AI调度能力,配合Volcano的新版本,用户在使用LWS时,可自动创建PodGroup,由Volcano进行Pod的调度与资源管理,从而实现了大模型推理场景下的Gang调度等高阶能力。
展望未来,Volcano 将继续扩展其生态系统集成能力,为更多致力于在 Kubernetes 上实现分布式推理的项目提供强大的调度和资源管理支持。
使用文档请参考:LeaderWorkerSet With Gang[5]
相关PRs:
https://github.com/kubernetes-sigs/lws/pull/496
https://github.com/kubernetes-sigs/lws/pull/498
由衷感谢社区开发者:@JesseStutler对该特性的贡献!
新增 Cron Volcano Job
该版本引入了对 Cron Volcano Job 的支持,用户可以像使用原生 Kubernetes CronJob 一样,按预定的时间计划(schedule)来周期性地创建和运行 Volcano Job,以实现周期性运行AI、大数据等批量计算任务。详细功能如下:
定时调度:通过标准的 Cron 表达式(spec.schedule)定义作业的执行周期。
时区支持:支持在 spec.timeZone 中设置时区,以确保作业在预期的本地时间执行。
并发策略:通过 spec.concurrencyPolicy 控制并发行为:AllowConcurrent:允许并发运行多个作业(默认)。ForbidConcurrent:如果前一个作业尚未完成,则跳过本次调度。ReplaceConcurrent:如果前一个作业仍在运行,则终止它并启动新的作业。
历史记录管理:可配置保留成功(successfulJobsHistoryLimit)和失败(failedJobsHistoryLimit)的作业历史记录数量,自动清理旧的作业。
错过调度处理:通过 startingDeadlineSeconds 字段,可以容忍一定时间内的调度延迟,超时则视为错过执行。
状态追踪:CronJob 的状态(status)会追踪当前活跃的作业、上一次调度时间以及上一次成功完成的时间,便于监控和管理。
使用例子请参考:Cron Volcano Job Example[6]
相关PRs:
https://github.com/volcano-sh/apis/pull/192
https://github.com/volcano-sh/volcano/pull/4560
由衷感谢社区开发者:@GoingCharlie,@hwdef,@Monokaix对该特性的贡献!
支持基于 Label 的 HyperNode 自动发现机制
Volcano 在 v1.12 版本中正式推出了网络拓扑感知调度能力,并率先实现了基于 InfiniBand (IB) 网络的 UFM 自动发现机制。然而,对于不支持 IB 网络或采用其他网络架构的硬件集群(如以太网),手动维护网络拓扑结构依然繁琐。
为解决这一问题,新版本引入了基于节点标签(Label)的 HyperNode 自动发现机制。该功能为用户提供了一种通用且灵活的方式来描述网络拓扑,将复杂的拓扑管理工作转变为简单的节点标签管理。
