从工作流编排到智能体编排

作者：Yaron Schneider

本文翻译自：From Workflow Orchestration to Agentic Orchestration

几十年来，工作流编排一直是高可靠软件系统的核心基石。

银行通过工作流处理交易，供应链通过工作流协调运营，大型分布式系统依靠工作流保障任务按正确顺序执行、失败任务自动重试，以及系统在出现故障时可快速恢复。

但AI智能体正在改变软件执行的本质。

不同于每一步都预先定义的确定性流水线，如今我们拥有的系统能够解读目标、对行动进行推理，并动态决定下一步操作。

这一转变，需要一套全新的编排模型。

行业已花费数年时间，为确定性系统打磨完善工作流编排能力。但自治系统在推理、状态管理和可解释性方面，提出了本质上截然不同的要求。

为应对这一挑战，一个全新的领域正在兴起：智能体编排。

智能体编排的定义

智能体编排，是在结构化工作流内协调自治AI系统的一门学科，可为系统提供可靠性、安全护栏与可解释性。

智能体编排将工作流的核心原则，拓展到了包含自治推理能力的系统中。

智能体编排并未将智能体视为孤立的推理循环，而是将其纳入结构化执行模型中，该模型可提供以下核心能力：

推理与行动的协同联动
工具与模型调用的安全护栏
智能体决策的可解释性
故障发生时的自动恢复机制

在该模型中，工作流成为了智能体行为的记录系统。

每一次决策、工具调用和中间步骤，都会成为结构化执行历史的一部分。这一机制将智能体从黑盒式的推理引擎，转变为可解释的行动系统。

智能体编排的另一个核心维度是身份传递与访问控制。智能体执行任务时，其身份与权限应随执行状态一同在工作流中流转。这构建了一套闭环执行模型：所有工具调用、API请求或系统交互，都在具备明确权限的指定智能体身份下执行。通过将这些与身份绑定的操作记录到工作流历史中，系统可实现审计、重放与核验能力，精准追溯哪个智能体在何种授权下执行了哪项操作。该方法将现代分布式系统中成熟的最小权限、可追溯性与治理原则，完整落地到了自治AI的执行流程中。

确定性工作流 vs 自治系统

传统工作流是确定性的。

开发人员预先定义完整的执行路径：

数据采集 → 数据处理 → 校验 → 结果存储

每一个步骤都是可预测、可观测、明确定义的。

智能体系统的运行逻辑则完全不同。给定一个目标后，智能体可能会：

自主决定调用哪些工具
自行确定操作的执行顺序
在执行过程中动态修改计划
与其他智能体完成协同配合

这种灵活性释放了强大的能力，但也带来了传统编排模型从未设计应对的复杂度。

缺乏结构化约束的智能体系统，会很快变得难以追溯与理解：

智能体为何选择执行某一特定操作？
是怎样的决策序列最终产生了该结果？
如果系统在任务执行中途崩溃，会发生什么？

智能体编排的核心目标，正是解决这些难题。

有状态执行的核心作用

随着智能体系统的兴起，出现了多个术语，用于描述长流程可靠运行所需的一项核心能力。

有状态编排、工作流持久化、持久化执行等术语常被互换使用。其核心都指向同一个底层特性：持久化状态与重放事件的能力，保障系统在故障后可从已知节点恢复执行。

这项能力对于包含以下场景的系统至关重要：

多次工具与模型调用
外部API交互
迭代推理循环
跨服务或跨智能体协同

在分布式环境中，故障不可避免：基础设施可能崩溃、API可能调用失败、网络可能出现波动。

有状态可重放能力，确保了故障发生时，系统可在不丢失执行进度的前提下完成恢复。

但这项能力虽重要，也只是自治系统编排这一宏大挑战中的一环。智能体编排将能力边界从状态管理，拓展到了智能体全执行生命周期的协同、安全护栏与可解释性。

从可观测性到可解释性

长期以来，可观测性一直是分布式系统的核心原则。日志、指标与链路追踪，可帮助工程师理解软件在生产环境的运行状态，并定位故障根因。

但智能体系统带来了全新的挑战。

传统软件是确定性的，其行为由开发人员编写的代码定义，所有决策最终都可追溯到对应的代码逻辑。

智能体则截然不同。它们是代表用户进行推理与行动的概率性系统，其决策来源于模型推理、提示词与工具交互，而非硬编码的规则。

正因如此，仅靠可观测性远远不够。只知道一个请求经过了一系列服务节点是远远不够的，我们必须能够解释，智能体为何选择执行某一特定操作。

智能体编排填补了这一空白。通过将智能体执行过程纳入结构化工作流，每一次交互——包括模型提示词、工具调用、路由决策与输出结果，都可被完整记录为连贯执行历史的一部分。

这份执行历史成为了记录系统，让系统能力从可观测性升级到可解释性，为自治AI系统提供了调试、治理与合规支撑。

我们不再只能追问：“智能体做了什么？”

而是可以清晰解答：“发生了怎样的决策与行动序列，以及背后的原因是什么？”

面向智能体的核心工作流模式

尽管智能体系统的设计空间仍在持续演进，但绝大多数落地架构都遵循少数几类工作流模式。

其中最常见的三类模式如下：

顺序工作流

一种结构化流水线，AI推理在预先定义的阶段内执行。

信息提取 → 分析 → 报告生成

该模式适用于流程主体为确定性逻辑，但特定步骤可通过AI推理实现能力增强的场景。

路由工作流

工作流先解读请求，再将其路由至对应的工具、服务或专属智能体。

用户请求 → 意图分类 → 路由至领域专属智能体

路由工作流可让系统在整合各类专属能力的同时，保持集中化的协同管控。

并行工作流

多个AI任务并行执行，最终对结果进行聚合。

并行检索信息源 → 结果整合 → 生成最终答案

并行能力可同时提升系统的执行性能与容错性。

这些模式为构建更复杂的智能体架构奠定了基础，同时保障了执行过程的结构化。

智能体与工作流互为补充

智能体与工作流常被分开讨论，但在实际落地中，能力最强的系统往往融合了二者的优势。

智能体为软件系统注入了自治性与推理能力，工作流则提供了结构化约束、协同能力与可靠性保障。

最健壮的系统架构会将二者深度融合：

智能体负责推理、规划与工具选择
工作流提供编排、全链路可视性与管控能力

智能体编排，正是将这些层级整合为一套连贯系统的核心学科。

形成对智能体编排的行业共识

随着生态的持续演进，构建可靠智能体系统的几项核心原则已逐渐成型：

自治系统仍需结构化执行模型的支撑
长周期智能体工作流必须具备状态持久化与故障恢复能力
智能体决策必须具备可解释性与可审计性
推理与行动之间必须设置安全护栏

智能体编排，是工作流编排在AI时代的自然演进。

通过将结构化执行与自治推理深度融合，我们可以突破实验性的智能体演示场景，落地可靠的生产级AI系统。

工作流工作组的职责

在智能体AI基金会（Agentic AI Foundation）内部，工作流工作组正致力于探索如何将支撑智能体编排的核心概念与模式进行标准化。

核心要点

AI智能体带来的自治性与动态决策能力，是传统确定性工作流从未设计应对的。
智能体编排将智能体与结构化工作流融合，提供可靠性、安全护栏与协同能力。
工作流作为记录系统，可完整捕获每一步推理、工具调用与决策过程。
身份与访问控制应在工作流中全程传递，确保智能体的每一次操作都在明确的身份与权限体系下执行。这构建了闭环执行模型，所有操作均可安全地完成审计、治理与重放。
有状态执行能力，能够保障长周期运行的智能体可在故障后恢复，且不丢失执行进度。
长期来看，随着行业对安全护栏与治理体系的信心不断提升，系统将从确定性工作流（完全可控）逐步向非确定性智能体工作流（更高投入回报比）演进。

郭奕婷|译