大势所趋：AI 平台为何纷纷拥抱 Kubernetes

作者：Vara Bonthu， Amazon Web Services Inc。

本文翻译自：https://www.cncf.io/blog/2026/03/05/the-great-migration-why-every-ai-platform-is-converging-on-kubernetes/

本文重点介绍的相关项目均来自云原生计算基金会（CNCF）

十年前 Kubernetes 刚发布时，它的核心愿景非常明确：让微服务的部署变得和运行一个容器一样简单。时间来到 2026 年，Kubernetes 早已不再是 “只” 用来跑无状态 Web 服务的工具。根据 CNCF 在 2026 年 1 月发布的年度调研，82% 的容器用户已在生产环境中使用 Kubernetes；而部署生成式 AI 模型的企业中，有 66% 会将部分甚至全部推理负载放在 Kubernetes 上运行。

行业的讨论焦点，已经从无状态 Web 应用，彻底转向了分布式数据处理、分布式训练任务、大语言模型推理、自主 AI 智能体。这已经不只是简单的技术演进，而是由现实需求驱动的平台大融合：如果把数据处理、模型训练、推理、智能体运行放在不同的基础设施上，运维复杂度会成倍增加，而 Kubernetes 正好为所有这些工作负载提供了统一的基础。

三个时代，同一个平台

Kubernetes 的发展历程完美映射了软件行业的演进路径。

微服务时代（2015–2020）：夯实了无状态服务、发布策略和多租户平台的能力基础。
数据 + 生成式 AI 时代（2020–2024）：让分布式数据处理、重度依赖 GPU 的训练和推理工作负载成为行业主流。
智能体时代（2025 年至今）：工作负载的核心从请求 / 响应式 API，转向了长周期运行的推理循环。

每一波技术浪潮都在前序基础上迭代升级，最终打造出了一个能同时承载数据处理、训练、推理、智能体工作负载的统一平台。

底层基石：大规模数据处理

模型训练的前提，是完成数据预处理。如今，Kubernetes 已经成为数据工程和机器学习融合的统一平台，既能处理稳态的 ETL 任务，也能承接突发型工作负载 —— 可在数分钟内将算力从几百核扩容到几千核。根据《2024 年 Kubernetes 数据社区报告》，近半数企业已经将 50% 以上的生产环境数据负载运行在 Kubernetes 上，头部企业的这一比例更是超过了 75%。

Apache Spark 依然是大规模数据处理的行业黄金标准。Kubeflow Spark Operator 让用户能在 Kubernetes 内以声明式的方式管理 Spark 任务。企业正在以超大规模运行 Spark：数千个节点、单集群超 10 万核，横跨数百个集群。Spark 负责预处理 PB 级的训练数据，并触发下游的训练任务，所有这些流程都通过 Kubernetes 原生组件完成编排。

流程编排：打通 AI 全链路

当有 PB 级的预处理训练数据，且模型需要按计划重新训练时，多步骤工作流的协同调度就成了核心问题。一套典型的机器学习流水线，包含 Spark 数据预处理、跨数千张 GPU 的分布式训练、模型校验、模型部署。纯手动执行这些流程根本无法实现规模化落地。

Kubeflow Pipelines 提供了可移植的机器学习工作流能力，同时支持实验追踪。Argo Workflows 则能搭建跨 Spark 任务、PyTorch 训练、KServe 部署的复杂有向无环图（DAG）。这个编排层能把零散的临时脚本，转化为标准化的生产流水线 —— 当检测到数据漂移时，就能自动触发模型重训练。

模型训练：成组调度与资源协同

当编排系统触发训练任务后，分布式训练的核心难题就浮出水面：资源协同。比如你申请了 120 张 GPU，但集群里只有 100 张可用，那这 100 张 GPU 就只能空转，既浪费成本，还会阻塞其他任务。在多团队争抢 GPU 资源的共享集群里，这是常态问题。

成组调度（Gang scheduling）也因此成了必备能力。Volcano、Apache Yunikorn 等项目率先落地了这套模式：多节点训练任务只有在申请的所有资源全部到位时，才会启动运行。

Kueue 正在成为 Kubernetes 上批量工作负载管理的社区标准。它提供了配额管理、公平调度、多租户管控能力，完美解决了多团队争抢有限 GPU 资源的痛点。JobSet 则与 Kueue 形成互补，它提供了管理分布式任务组的原生 API，支持协同故障处理。

模型服务：规模化推理

训练完成后，向用户提供预测服务的逻辑和训练完全不同。训练是批量任务，会持续打满 GPU；而推理是在线服务，对延迟高度敏感、成本管控要求极高，还必须能应对不可预测的流量波动。

vLLM 和 SGLang 已经成为 Kubernetes 上高吞吐大语言模型服务的行业标准，它们通过分页注意力（PagedAttention）与连续批处理技术，大幅优化推理工作负载。

KServe 提供了标准化的模型服务层，支持自动扩缩容、版本管理和流量切分。KServe 还能与 Knative 集成，实现 GPU 工作负载的零实例缩容。对于参数量超过 4000 亿、需要跨多主机部署的推理模型，LeaderWorkerSet 能把多个 Pod 组作为一个整体进行管理。

智能体工作负载：打造智能体操作系统

随着规模化推理服务的成熟，行业出现了全新的应用模式：自主 AI 智能体。和单次预测不同，智能体需要连续调用大语言模型、维护会话状态、对接外部工具，单次运行时长可达数分钟甚至数小时。它们是长周期运行的推理循环，需要配套的编排能力、状态管理能力和安全边界。

能在 Kubernetes 上搭建和编排 AI 智能体吗？当然可以。LangGraph 等框架提供了带持久化执行能力的有状态智能体编排功能。KEDA 实现了事件驱动的自动扩缩容 —— 这一点至关重要，当 100 个用户请求需要 100 个智能体 Pod 时能快速扩容，闲置时又能缩容到零实例。StatefulSets 为智能体状态提供了持久化存储卷，向量数据库则负责管理语义记忆。

安全层面需要构建纵深防御体系。通过 SPIFFE/Spire 实现的工作负载身份，能为每个智能体分配可验证的唯一身份。使用 gVisor 或 Kata Containers 的沙箱执行环境，能有效隔离不可信的代码路径。通过 OPA 或 Kyverno 实现的策略管控，能在 Pod 准入层强制执行运行时安全规则。

GPU 经济下的资源优化

在所有这些工作负载中，GPU 的可用资源和使用成本都是核心问题。系统瓶颈早已不是 CPU 或内存，而是能否在需要时拿到 GPU 资源，以及能否最大化 GPU 的利用率。

GPU 共享技术也在持续迭代。多实例 GPU（MIG）能把一张 GPU 切分成多个隔离的实例；时间分片技术实现了执行任务的交错调度；多进程服务（MPS）支持并发运行多个内核程序；Kubernetes 的动态资源分配能力（DRA）已超越了传统的设备插件模式，支持在运行时对 GPU 进行分区和重新分配。

在基础设施层，Karpenter（Kubernetes-sigs）能精准供给匹配需求的节点类型，并主动释放闲置资源，实现成本优化。基于 Seekable OCI（SOCI）的容器镜像加速技术，能大幅缩减大体积镜像的启动时间 —— 这对模型服务容器来说尤为重要。

多集群编排与 AI 一致性标准

随着 AI 工作负载的规模不断扩大，即便是经过极致优化的单集群也会触达性能上限。如今企业团队往往会运行数百个集群，分别承接批量处理、分布式训练和推理任务。当一个需要 100 张 GPU 的训练任务打满集群资源时，推理任务就会排队积压，数据处理也会停滞。

多集群调度也因此成了核心能力。Armada（CNCF 沙箱项目）等解决方案，能把多个集群整合成一个统一的资源池，提供智能的工作负载分发、全局队列管理、跨集群的成组调度能力。

随着 Kubernetes 成为 AI 领域的底层基础设施，生态也在逐步标准化工作负载的可移植性要求。CNCF 社区已经启动了 Kubernetes “AI 一致性” 的相关工作，目标是定义一套基础能力规范，让 AI 工作负载能在所有符合标准的集群上一致运行。

未来展望：AI 规模化驱动的技术创新

AI 的规模化落地正在推动技术向很多此前无人预料的方向创新。当标准的 etcd 在超大规模场景下成为瓶颈，业界正在重新设计控制平面可扩展性。云厂商已经开始跳出 etcd 的框架，通过定制化的复制系统和内存存储实现技术创新。尽管上游 etcd v3.6.0 版本已经实现了 50% 的内存占用优化，但对于超 10 万个节点的集群来说，依然需要重新设计控制平面的存储系统。

统一智能体运算符正在快速兴起，它内置了扩缩容、安全和生命周期管理能力，能大幅简化智能体的部署流程。感知工作负载特性的多集群调度技术也在持续演进，能把数百个集群整合成一个智能的资源网络，根据 GPU 可用情况、网络拓扑和成本，自动为工作负载选择最优的运行位置。

未来之路

平台的核心衡量指标正在发生变化。成功的标准越来越多地变成了“一美元能支撑的每秒 token 数”，而不再是 Pod 部署密度。可靠性的定义也新增了输出漂移检测、模型质量降级监控的要求。可观测能力，必须能追踪完整的推理循环、工具调用、提示词 / 上下文的全链路路径。

好消息是，这些能力绝大多数都在以开源的方式构建 —— 遍布 CNCF 与 Kubernetes 各特殊兴趣组的项目中，这也让 Kubernetes 从一个单纯的容器部署平台，变成了 AI 团队搭建端到端系统的统一底座。

想要深入了解这些落地模式？社区已经为 Kubernetes 上的数据与 AI 工作负载，提供了可实操的实践教程与参考架构。您可以查阅 Kubeflow 官方文档、CNCF 全景图指南，以及对应云厂商的专属示例教程。

叶子欣 | 译

三个时代，同一个平台

底层基石：大规模数据处理

流程编排：打通 AI 全链路

模型训练：成组调度与资源协同

模型服务：规模化推理

智能体工作负载：打造智能体操作系统

GPU 经济下的资源优化

多集群编排与 AI 一致性标准

未来展望：AI 规模化驱动的技术创新

未来之路

相关文章

聚焦 SIG Architecture：API 治理

Canonical 与 Ubuntu RISC-V：2025 年复盘与 2026 年展望

Eclipse 基金会软件开发团队：AI 辅助开发的落地实践

实时焦点