协会地址:上海市长宁区古北路620号图书馆楼309-313室
大势所趋:AI 平台为何纷纷拥抱 Kubernetes
作者:Vara Bonthu, Amazon Web Services Inc。
本文重点介绍的相关项目均来自云原生计算基金会(CNCF)
十年前 Kubernetes 刚发布时,它的核心愿景非常明确:让微服务的部署变得和运行一个容器一样简单。时间来到 2026 年,Kubernetes 早已不再是 “只” 用来跑无状态 Web 服务的工具。根据 CNCF 在 2026 年 1 月发布的年度调研,82% 的容器用户已在生产环境中使用 Kubernetes;而部署生成式 AI 模型的企业中,有 66% 会将部分甚至全部推理负载放在 Kubernetes 上运行。
行业的讨论焦点,已经从无状态 Web 应用,彻底转向了分布式数据处理、分布式训练任务、大语言模型推理、自主 AI 智能体。这已经不只是简单的技术演进,而是由现实需求驱动的平台大融合:如果把数据处理、模型训练、推理、智能体运行放在不同的基础设施上,运维复杂度会成倍增加,而 Kubernetes 正好为所有这些工作负载提供了统一的基础。
三个时代,同一个平台
Kubernetes 的发展历程完美映射了软件行业的演进路径。
- 微服务时代(2015–2020):夯实了无状态服务、发布策略和多租户平台的能力基础。
- 数据 + 生成式 AI 时代(2020–2024):让分布式数据处理、重度依赖 GPU 的训练和推理工作负载成为行业主流。
- 智能体时代(2025 年至今):工作负载的核心从请求 / 响应式 API,转向了长周期运行的推理循环。
每一波技术浪潮都在前序基础上迭代升级,最终打造出了一个能同时承载数据处理、训练、推理、智能体工作负载的统一平台。
底层基石:大规模数据处理
模型训练的前提,是完成数据预处理。如今,Kubernetes 已经成为数据工程和机器学习融合的统一平台,既能处理稳态的 ETL 任务,也能承接突发型工作负载 —— 可在数分钟内将算力从几百核扩容到几千核。根据《2024 年 Kubernetes 数据社区报告》,近半数企业已经将 50% 以上的生产环境数据负载运行在 Kubernetes 上,头部企业的这一比例更是超过了 75%。
Apache Spark 依然是大规模数据处理的行业黄金标准。Kubeflow Spark Operator 让用户能在 Kubernetes 内以声明式的方式管理 Spark 任务。企业正在以超大规模运行 Spark:数千个节点、单集群超 10 万核,横跨数百个集群。Spark 负责预处理 PB 级的训练数据,并触发下游的训练任务,所有这些流程都通过 Kubernetes 原生组件完成编排。
流程编排:打通 AI 全链路
当有 PB 级的预处理训练数据,且模型需要按计划重新训练时,多步骤工作流的协同调度就成了核心问题。一套典型的机器学习流水线,包含 Spark 数据预处理、跨数千张 GPU 的分布式训练、模型校验、模型部署。纯手动执行这些流程根本无法实现规模化落地。
Kubeflow Pipelines 提供了可移植的机器学习工作流能力,同时支持实验追踪。Argo Workflows 则能搭建跨 Spark 任务、PyTorch 训练、KServe 部署的复杂有向无环图(DAG)。这个编排层能把零散的临时脚本,转化为标准化的生产流水线 —— 当检测到数据漂移时,就能自动触发模型重训练。
模型训练:成组调度与资源协同
当编排系统触发训练任务后,分布式训练的核心难题就浮出水面:资源协同。比如你申请了 120 张 GPU,但集群里只有 100 张可用,那这 100 张 GPU 就只能空转,既浪费成本,还会阻塞其他任务。在多团队争抢 GPU 资源的共享集群里,这是常态问题。
成组调度(Gang scheduling)也因此成了必备能力。Volcano、Apache Yunikorn 等项目率先落地了这套模式:多节点训练任务只有在申请的所有资源全部到位时,才会启动运行。
Kueue 正在成为 Kubernetes 上批量工作负载管理的社区标准。它提供了配额管理、公平调度、多租户管控能力,完美解决了多团队争抢有限 GPU 资源的痛点。JobSet 则与 Kueue 形成互补,它提供了管理分布式任务组的原生 API,支持协同故障处理。
模型服务:规模化推理
训练完成后,向用户提供预测服务的逻辑和训练完全不同。训练是批量任务,会持续打满 GPU;而推理是在线服务,对延迟高度敏感、成本管控要求极高,还必须能应对不可预测的流量波动。
vLLM 和 SGLang 已经成为 Kubernetes 上高吞吐大语言模型服务的行业标准,它们通过分页注意力(PagedAttention)与连续批处理技术,大幅优化推理工作负载。
KServe 提供了标准化的模型服务层,支持自动扩缩容、版本管理和流量切分。KServe 还能与 Knative 集成,实现 GPU 工作负载的零实例缩容。对于参数量超过 4000 亿、需要跨多主机部署的推理模型,LeaderWorkerSet 能把多个 Pod 组作为一个整体进行管理。
智能体工作负载:打造智能体操作系统
随着规模化推理服务的成熟,行业出现了全新的应用模式:自主 AI 智能体。和单次预测不同,智能体需要连续调用大语言模型、维护会话状态、对接外部工具,单次运行时长可达数分钟甚至数小时。它们是长周期运行的推理循环,需要配套的编排能力、状态管理能力和安全边界。
能在 Kubernetes 上搭建和编排 AI 智能体吗?当然可以。LangGraph 等框架提供了带持久化执行能力的有状态智能体编排功能。KEDA 实现了事件驱动的自动扩缩容 —— 这一点至关重要,当 100 个用户请求需要 100 个智能体 Pod 时能快速扩容,闲置时又能缩容到零实例。StatefulSets 为智能体状态提供了持久化存储卷,向量数据库则负责管理语义记忆。
安全层面需要构建纵深防御体系。通过 SPIFFE/Spire 实现的工作负载身份,能为每个智能体分配可验证的唯一身份。使用 gVisor 或 Kata Containers 的沙箱执行环境,能有效隔离不可信的代码路径。通过 OPA 或 Kyverno 实现的策略管控,能在 Pod 准入层强制执行运行时安全规则。
GPU 经济下的资源优化
在所有这些工作负载中,GPU 的可用资源和使用成本都是核心问题。系统瓶颈早已不是 CPU 或内存,而是能否在需要时拿到 GPU 资源,以及能否最大化 GPU 的利用率。
GPU 共享技术也在持续迭代。多实例 GPU(MIG)能把一张 GPU 切分成多个隔离的实例;时间分片技术实现了执行任务的交错调度;多进程服务(MPS)支持并发运行多个内核程序;Kubernetes 的动态资源分配能力(DRA)已超越了传统的设备插件模式,支持在运行时对 GPU 进行分区和重新分配。
在基础设施层,Karpenter(Kubernetes-sigs)能精准供给匹配需求的节点类型,并主动释放闲置资源,实现成本优化。基于 Seekable OCI(SOCI)的容器镜像加速技术,能大幅缩减大体积镜像的启动时间 —— 这对模型服务容器来说尤为重要。
多集群编排与 AI 一致性标准
随着 AI 工作负载的规模不断扩大,即便是经过极致优化的单集群也会触达性能上限。如今企业团队往往会运行数百个集群,分别承接批量处理、分布式训练和推理任务。当一个需要 100 张 GPU 的训练任务打满集群资源时,推理任务就会排队积压,数据处理也会停滞。
多集群调度也因此成了核心能力。Armada(CNCF 沙箱项目)等解决方案,能把多个集群整合成一个统一的资源池,提供智能的工作负载分发、全局队列管理、跨集群的成组调度能力。
随着 Kubernetes 成为 AI 领域的底层基础设施,生态也在逐步标准化工作负载的可移植性要求。CNCF 社区已经启动了 Kubernetes “AI 一致性” 的相关工作,目标是定义一套基础能力规范,让 AI 工作负载能在所有符合标准的集群上一致运行。
未来展望:AI 规模化驱动的技术创新
AI 的规模化落地正在推动技术向很多此前无人预料的方向创新。当标准的 etcd 在超大规模场景下成为瓶颈,业界正在重新设计控制平面可扩展性。云厂商已经开始跳出 etcd 的框架,通过定制化的复制系统和内存存储实现技术创新。尽管上游 etcd v3.6.0 版本已经实现了 50% 的内存占用优化,但对于超 10 万个节点的集群来说,依然需要重新设计控制平面的存储系统。
统一智能体运算符正在快速兴起,它内置了扩缩容、安全和生命周期管理能力,能大幅简化智能体的部署流程。感知工作负载特性的多集群调度技术也在持续演进,能把数百个集群整合成一个智能的资源网络,根据 GPU 可用情况、网络拓扑和成本,自动为工作负载选择最优的运行位置。
未来之路
平台的核心衡量指标正在发生变化。成功的标准越来越多地变成了“一美元能支撑的每秒 token 数”,而不再是 Pod 部署密度。可靠性的定义也新增了输出漂移检测、模型质量降级监控的要求。可观测能力,必须能追踪完整的推理循环、工具调用、提示词 / 上下文的全链路路径。
好消息是,这些能力绝大多数都在以开源的方式构建 —— 遍布 CNCF 与 Kubernetes 各特殊兴趣组的项目中,这也让 Kubernetes 从一个单纯的容器部署平台,变成了 AI 团队搭建端到端系统的统一底座。
想要深入了解这些落地模式?社区已经为 Kubernetes 上的数据与 AI 工作负载,提供了可实操的实践教程与参考架构。您可以查阅 Kubeflow 官方文档、CNCF 全景图指南,以及对应云厂商的专属示例教程。
叶子欣 | 译







