Anthropic:我们如何构建多智能体研究系统

我们的研究(Research)功能利用多个 Claude 智能体,来更有效地探索复杂主题。在此,我们分享构建这一系统时遇到的工程挑战以及我们学到的经验教训。

现在,Claude 具备了研究能力,能够横跨网络、Google Workspace 及任何集成应用进行搜索,以完成复杂的任务。

这个多智能体系统从原型到产品的演进过程,让我们在系统架构、工具设计和提示工程方面学到了至关重要的经验。一个多智能体系统由多个协同工作的智能体(在循环中自主使用工具的大语言模型)组成。我们的研究功能包含一个主智能体,它根据用户查询规划研究流程,然后利用工具创建并行的子智能体,同时搜索信息。这种多智能体系统在智能体协调、评估和可靠性方面带来了新的挑战。

本文将分解那些对我们行之有效的原则——我们希望您在构建自己的多智能体系统时,会发现它们同样有用。

多智能体系统的优势

研究工作常常涉及开放式问题,很难预先预测所需的步骤。你无法为探索复杂主题硬编码一个固定的路径,因为这个过程本质上是动态且依赖于路径的。当人们进行研究时,他们会根据新发现不断更新自己的方法,沿着调查过程中出现的线索前进。

这种不可预测性使得 AI 智能体特别适合研究任务。研究工作要求在调查展开时,能够灵活地调整方向或探索相关的分支。模型必须能够自主运行多轮,根据中间的发现来决定追求哪个方向。线性的、一次性的流程无法处理这类任务。

搜索的本质是压缩:从浩瀚的语料库中提炼出洞见。子智能体通过并行运作来促进压缩,它们各自拥有独立的上下文窗口,同时探索问题的不同方面,然后将最重要的信息(tokens)精炼给主研究智能体。每个子智能体还实现了关注点分离——拥有独特的工具、提示和探索轨迹——这减少了路径依赖,并实现了彻底、独立的调查。

一旦智能达到某个阈值,多智能体系统就成为扩展性能的关键方式。例如,尽管在过去十万年里,单个人的智力并未发生巨变,但人类社会在信息时代的能力却呈指数级增长,这得益于我们的集体智慧和协调能力。即使是通用智能体,在作为个体运作时也会面临极限;而智能体群体可以完成远超个体能力的任务。

我们的内部评估显示,多智能体研究系统在处理广度优先的查询(即需要同时探索多个独立方向的查询)时表现尤为出色。我们发现,在我们的内部研究评估中,一个由 Claude Opus 4 担任主智能体、Claude Sonnet 4 担任子智能体的多智能体系统,其性能比单智能体的 Claude Opus 4 高出 90.2%。例如,当被要求找出标普 500 信息技术板块所有公司的董事会成员时,多智能体系统通过将任务分解给子智能体,成功找到了正确答案;而单智能体系统则因缓慢的顺序搜索而未能找到答案。

多智能体系统之所以有效,主要是因为它们有助于投入足够的计算资源(tokens)来解决问题。在我们的分析中,有三个因素解释了 BrowseComp 评估(该评估测试浏览智能体定位难寻信息的能力)中 95% 的性能差异。我们发现,仅 token 使用量就解释了 80% 的差异,另外两个解释因素是工具调用次数和模型选择。这一发现验证了我们的架构设计的正确性,即通过将工作分配给具有独立上下文窗口的多个智能体,来增加并行推理的能力。最新的 Claude 模型在 token 使用效率上起到了巨大的放大作用,例如,升级到 Claude Sonnet 4 带来的性能提升,比在 Claude Sonnet 3.7 上将 token 预算翻倍还要大。对于超出单个智能体能力极限的任务,多智能体架构能有效地扩展 token 的使用规模。

当然,这也存在一个缺点:在实践中,这些架构会飞快地消耗 token。我们的数据显示,智能体通常比聊天交互多用约 4 倍的 token,而多智能体系统则比聊天交互多用约 15 倍。为了在经济上可行,多智能体系统所执行的任务价值必须足够高,才能支付得起性能提升带来的成本。此外,某些需要所有智能体共享相同上下文或智能体之间存在许多依赖关系的领域,目前并不适合使用多智能体系统。例如,大多数编码任务中,真正可并行的任务比研究要少,而且大语言模型智能体目前还不擅长与其他智能体进行实时协调和委派。我们发现,多智能体系统在处理那些价值高、涉及大量并行处理、信息量超出单个上下文窗口以及需要与众多复杂工具交互的任务时,表现最为出色。

研究功能的架构概览

我们的研究系统采用了一种多智能体架构,其模式为“协调者-工作者”(orchestrator-worker),即由一个主智能体协调整个流程,同时将任务委派给并行的专业子智能体。

多智能体架构的实际运作:用户查询流经主智能体,主智能体创建专业的子智能体,以并行方式搜索不同方面的信息。

当用户提交一个查询时,主智能体首先分析它,制定策略,然后生成子智能体来同时探索问题的不同方面。如上图所示,子智能体充当智能过滤器,通过迭代使用搜索工具来收集信息(此案例中是关于 2025 年的 AI 智能体公司),然后将公司列表返回给主智能体,由主智能体汇编最终答案。

传统方法使用检索增强生成(RAG),它依赖于静态检索。也就是说,它们获取一批与输入查询最相似的文本块,并用这些文本块来生成回应。相比之下,我们的架构使用多步搜索,能够动态地发现相关信息,适应新的发现,并分析结果以形成高质量的答案。

流程图展示了我们多智能体研究系统的完整工作流。当用户提交查询时,系统会创建一个 LeadResearcher(主研究员)智能体,进入一个迭代的研究过程。LeadResearcher 首先思考方法,并将其计划保存到 Memory(记忆)中以持久化上下文,因为如果上下文窗口超过 200,000 个 token,它将被截断,而保留计划至关重要。然后,它会创建专门的 Subagents(子智能体)(这里显示了两个,但可以是任意数量),并分配具体的研究任务。每个 Subagent 独立执行网络搜索,使用交错思考评估工具结果,并将发现返回给 LeadResearcher。LeadResearcher 综合这些结果,并决定是否需要更多研究——如果需要,它可以创建额外的子智能体或完善其策略。一旦收集到足够的信息,系统就会退出研究循环,并将所有发现传递给一个 CitationAgent(引文智能体),该智能体处理文档和研究报告,以确定引文的具体位置。这确保了所有声明都有适当的来源依据。最后,附带引文的最终研究结果会返回给用户。

研究智能体的提示工程与评估

多智能体系统与单智能体系统有关键区别,其中之一是协调复杂度的急剧增长。我们早期的智能体曾犯过这样的错误:为简单查询生成 50 个子智能体,为寻找不存在的来源而无休止地搜刮网络,以及因过多的更新而相互干扰。由于每个智能体都由一个提示(prompt)引导,提示工程是我们改进这些行为的主要手段。以下是我们为智能体编写提示时学到的一些原则:

  1. 像你的智能体一样思考。 要迭代优化提示,你必须理解它们的效果。为了帮助我们做到这一点,我们使用我们的 Console,利用系统中的确切提示和工具构建了模拟环境,然后一步步观察智能体的工作。这立刻暴露了失败模式:智能体在已获得足够结果后仍在继续,使用过于冗长的搜索查询,或选择错误的工具。有效的提示依赖于对智能体建立一个准确的心智模型,这能让最有影响力的改动变得显而易见。

  2. 教协调者如何委派任务。 在我们的系统中,主智能体将查询分解为子任务,并向子智能体描述它们。每个子智能体都需要一个目标、一个输出格式、关于使用哪些工具和来源的指导,以及明确的任务边界。没有详细的任务描述,智能体们会重复工作、留下空白,或者找不到必要的信息。我们最初允许主智能体给出简单、简短的指令,如“研究半导体短缺”,但发现这些指令常常含糊不清,导致子智能体误解任务或与其他智能体执行完全相同的搜索。例如,一个子智能体在研究 2021 年的汽车芯片危机,而另外两个则在重复调查当前 2025 年的供应链,没有形成有效的分工。

  3. 根据查询的复杂性调整投入。 智能体很难判断不同任务所需的适当投入,所以我们在提示中嵌入了伸缩规则。简单的事实查找只需要 1 个智能体进行 3-10 次工具调用;直接比较可能需要 2-4 个子智能体,每个进行 10-15 次调用;而复杂的研究可能需要超过 10 个子智能体,并有明确划分的职责。这些明确的指导方针帮助主智能体高效分配资源,并防止在简单查询上过度投入,这是我们早期版本中常见的失败模式。

  4. 工具设计和选择至关重要。 智能体与工具的接口和人机界面一样关键。使用正确的工具效率很高——通常,这是绝对必要的。例如,一个在 Slack 中寻找只存在于网络上的上下文的智能体,从一开始就注定要失败。有了能够让模型访问外部工具的 MCP 服务器后,这个问题变得更加复杂,因为智能体可能会遇到描述质量参差不齐的未知工具。我们为智能体提供了明确的启发式规则:例如,先检查所有可用工具,让工具使用与用户意图匹配,对于广泛的外部探索使用网络搜索,或者优先选择专业工具而非通用工具。糟糕的工具描述可能会让智能体走上完全错误的道路,所以每个工具都需要有明确的用途和清晰的描述。

  5. 让智能体自我改进。 我们发现 Claude 4 模型可以成为出色的提示工程师。当给它们一个提示和一个失败模式时,它们能够诊断出智能体失败的原因并提出改进建议。我们甚至创建了一个工具测试智能体——当给它一个有缺陷的 MCP 工具时,它会尝试使用该工具,然后重写工具描述以避免失败。通过数十次测试该工具,这个智能体发现了关键的细微差别和错误。这个改进工具人机工程学的过程,使得未来使用新描述的智能体完成任务的时间减少了 40%,因为它们能够避免大多数错误。

  6. 先宽后窄。 搜索策略应模仿人类专家的研究方式:在深入具体细节之前,先探索整个领域。智能体常常默认使用过长、过于具体的查询,结果返回很少。我们通过提示智能体从简短、宽泛的查询开始,评估可用的信息,然后逐步缩小焦点,来纠正这种倾向。

  7. 引导思考过程。 扩展思考模式能引导 Claude 在一个可见的思考过程中输出额外的 token,这可以作为一个可控的草稿纸。主智能体利用思考来规划其方法,评估哪些工具适合任务,确定查询的复杂度和子智能体的数量,并定义每个子智能体的角色。我们的测试表明,扩展思考改善了指令遵循、推理能力和效率。子智能体也会进行规划,然后在工具返回结果后使用交错思考来评估质量、识别差距并优化下一次查询。这使得子智能体能更有效地适应任何任务。

  8. 并行工具调用改变了速度和性能。 复杂的研究任务自然涉及探索许多来源。我们早期的智能体是顺序执行搜索的,这慢得令人痛苦。为了提速,我们引入了两种并行化:(1)主智能体并行启动 3-5 个子智能体,而不是串行启动;(2)子智能体并行使用 3 个以上的工具。这些改变将复杂查询的研究时间缩短了高达 90%,使得“研究”功能能在几分钟内完成更多工作,而不是几小时,同时覆盖的信息比其他系统更多。

我们的提示策略侧重于灌输良好的启发式方法,而非僵化的规则。我们研究了熟练的人类如何处理研究任务,并将这些策略编码到我们的提示中——例如将难题分解为更小的任务、仔细评估来源质量、根据新信息调整搜索方法,以及识别何时应侧重于深度(详细调查一个主题)与广度(并行探索多个主题)。我们还通过设置明确的护栏来主动减轻意外的副作用,以防止智能体失控。最后,我们专注于一个具有可观察性和测试用例的快速迭代循环。

对智能体的有效评估

良好的评估对于构建可靠的 AI 应用至关重要,智能体也不例外。然而,评估多智能体系统带来了独特的挑战。传统评估通常假设 AI 每次都遵循相同的步骤:给定输入 X,系统应遵循路径 Y 产生输出 Z。但多智能体系统并非如此运作。即使起点完全相同,智能体也可能采取完全不同但同样有效的路径来达到目标。一个智能体可能搜索三个来源,而另一个可能搜索十个;或者它们可能使用不同的工具找到相同的答案。因为我们并不总是知道正确的步骤是什么,所以我们通常不能仅仅检查智能体是否遵循了我们预先规定的“正确”步骤。相反,我们需要灵活的评估方法,既能判断智能体是否达到了正确的结果,又能判断它们是否遵循了合理的过程。

立即用小样本开始评估。 在智能体开发的早期,改动往往会产生巨大影响,因为有大量唾手可得的改进空间。一个提示的微调可能会将成功率从 30% 提高到 80%。在如此大的效果下,你只需几个测试用例就能发现变化。我们从大约 20 个代表真实使用模式的查询集开始。测试这些查询通常能让我们清楚地看到改动的影响。我们经常听说 AI 开发团队推迟创建评估,因为他们认为只有包含数百个测试用例的大型评估才有用。然而,最好是立即用几个例子开始小规模测试,而不是等到能够构建更全面的评估时再行动。

“大语言模型充当评委”的评估方法,如果做得好,可以规模化。 研究输出很难通过编程方式进行评估,因为它们是自由格式的文本,很少有单一的正确答案。大语言模型天然适合对输出进行评分。我们使用了一个大语言模型评委,它根据一个评分标准来评估每个输出:事实准确性(声明是否与来源匹配?)、引文准确性(引用的来源是否与声明匹配?)、完整性(是否覆盖了所有被要求的内容?)、来源质量(是否使用了主要来源而非质量较低的次要来源?),以及工具效率(是否以合理的次数使用了正确的工具?)。我们曾尝试用多个评委来评估每个部分,但发现用单个大语言模型调用,通过单个提示输出 0.0-1.0 的分数和一个“通过/不通过”的等级,结果最为一致,也最符合人类的判断。当评估的测试用例确实有明确答案时,这种方法尤其有效,我们可以用大语言模型评委简单地检查答案是否正确(例如,它是否准确列出了研发预算最高的三家制药公司?)。使用大语言模型作为评委,使我们能够规模化地评估数百个输出。

人工评估能捕捉到自动化所遗漏的东西。 测试智能体的人员会发现评估所遗漏的边缘案例。这些包括在不寻常查询下的幻觉答案、系统故障或微妙的来源选择偏见。在我们的案例中,人类测试员注意到,我们早期的智能体总是选择经过 SEO 优化的内容农场,而不是像学术 PDF 或个人博客这样权威但排名不高的来源。在我们的提示中加入来源质量的启发式规则帮助解决了这个问题。即使在一个自动化评估的世界里,手动测试仍然至关重要。

多智能体系统具有涌现行为,这些行为是在没有特定编程的情况下产生的。例如,对主智能体的小改动可能会不可预测地改变子智能体的行为。要取得成功,需要理解交互模式,而不仅仅是单个智能体的行为。因此,这些智能体的最佳提示不仅仅是严格的指令,而是定义了分工、解决问题的方法和投入预算的协作框架。要做到这一点,依赖于精心的提示和工具设计、可靠的启发式方法、可观察性以及紧密的反馈循环。请参阅我们 Cookbook 中的开源提示,其中包含了我们系统中的示例提示。

生产环境的可靠性与工程挑战

在传统软件中,一个 bug 可能会破坏一个功能、降低性能或导致服务中断。在智能体系统中,微小的改动会级联成巨大的行为变化,这使得为必须在长期运行过程中维持状态的复杂智能体编写代码变得异常困难。

智能体是有状态的,错误会累积。 智能体可以长时间运行,在多次工具调用中维持状态。这意味着我们需要持久地执行代码并处理过程中的错误。没有有效的缓解措施,微小的系统故障对智能体来说可能是灾难性的。当错误发生时,我们不能简单地从头开始:重启对用户来说既昂贵又令人沮丧。相反,我们构建了可以从错误发生时智能体所在的位置恢复的系统。我们还利用模型的智能来优雅地处理问题:例如,让智能体知道某个工具正在失灵并让它自行适应,效果出奇地好。我们将基于 Claude 构建的 AI 智能体的适应性与重试逻辑和定期检查点等确定性保障措施结合起来。

调试受益于新方法。 智能体做出动态决策,并且即使使用相同的提示,每次运行也都是非确定性的。这使得调试更加困难。例如,用户会报告智能体“找不到明显的信息”,但我们看不出原因。是智能体使用了糟糕的搜索查询吗?选择了差的来源?还是遇到了工具故障?增加完整的生产环境追踪让我们能够诊断智能体失败的原因并系统地修复问题。除了标准的可观察性,我们还监控智能体的决策模式和交互结构——所有这些都在不监控单个对话内容的情况下进行,以维护用户隐私。这种高层次的可观察性帮助我们诊断根本原因、发现意外行为并修复常见故障。

部署需要精心协调。 智能体系统是由提示、工具和执行逻辑构成的高度有状态的网络,几乎是持续运行的。这意味着每当我们部署更新时,智能体可能处于其流程的任何位置。因此,我们需要防止我们出于好意的代码更改破坏现有的智能体。我们不能同时将所有智能体更新到新版本。相反,我们使用彩虹部署(rainbow deployments)来避免干扰正在运行的智能体,通过在新旧版本同时运行时,逐步将流量从旧版本转移到新版本。

同步执行会造成瓶颈。 目前,我们的主智能体是同步执行子智能体的,即等待每批子智能体完成后再继续。这简化了协调,但在智能体之间的信息流中造成了瓶颈。例如,主智能体无法引导子智能体,子智能体之间无法协调,整个系统可能因为等待单个子智能体完成搜索而被阻塞。异步执行将能实现额外的并行性:智能体可以并发工作,并根据需要创建新的子智能体。但这种异步性在结果协调、状态一致性和跨子智能体的错误传播方面增加了挑战。随着模型能够处理更长、更复杂的研究任务,我们预计性能的提升将证明这种复杂性是值得的。

结论

在构建 AI 智能体时,“最后一公里”往往占据了整个旅程的大部分。在开发人员机器上能正常工作的代码库,需要大量的工程努力才能成为可靠的生产系统。智能体系统中错误的复合性质意味着,对传统软件来说的小问题可能会让智能体完全脱轨。一个步骤的失败可能导致智能体探索完全不同的轨迹,从而产生不可预测的结果。出于本文描述的所有原因,原型与生产之间的差距往往比预期的要大。

尽管存在这些挑战,多智能体系统在处理开放式研究任务方面已被证明非常有价值。用户表示,Claude 帮助他们找到了以前未曾考虑过的商业机会,驾驭了复杂的医疗保健选项,解决了棘手的技术错误,并通过揭示他们自己找不到的研究联系,节省了长达数天的工作时间。通过精心的工程设计、全面的测试、注重细节的提示和工具设计、稳健的运营实践,以及对当前智能体能力有深刻理解的研究、产品和工程团队之间的紧密合作,多智能体研究系统可以在规模上可靠地运行。我们已经看到这些系统正在改变人们解决复杂问题的方式。

一张 Clio 嵌入图,展示了当今人们使用“研究”功能最常见的方式。排名前列的用例类别是:跨专业领域开发软件系统(10%)、开发和优化专业及技术内容(8%)、制定业务增长和创收策略(8%)、协助学术研究和教育材料开发(7%),以及研究和核实关于人物、地点或组织的信息(5%)。

致谢

由 Jeremy Hadfield, Barry Zhang, Kenneth Lien, Florian Scholz, Jeremy Fox 和 Daniel Ford 撰写。这项工作反映了 Anthropic 多个团队的集体努力,他们共同使“研究”功能成为可能。特别感谢 Anthropic 的应用工程团队,他们的奉献精神将这个复杂的多智能体系统带入了生产环境。我们也感谢早期用户提供的宝贵反馈。

附录

以下是关于多智能体系统的一些额外杂项技巧。

对多轮修改状态的智能体进行终态评估。 评估那些在多轮对话中修改持久状态的智能体带来了独特的挑战。与只读的研究任务不同,每个动作都可能改变后续步骤的环境, tạo ra những sự phụ thuộc mà các phương pháp đánh giá truyền thống khó xử lý。我们发现,专注于终态评估而非逐轮分析是成功的关键。与其判断智能体是否遵循了特定过程,不如评估它是否达到了正确的最终状态。这种方法承认智能体可能会找到通往同一目标的不同路径,同时仍能确保它们交付预期的结果。对于复杂的工作流,应将评估分解为离散的检查点,在这些点上应已发生特定的状态变化,而不是试图验证每个中间步骤。

长跨度对话管理。 生产环境中的智能体通常会进行跨越数百轮的对话,这需要精心的上下文管理策略。随着对话的延长,标准的上下文窗口变得不足,需要智能的压缩和记忆机制。我们实现了一些模式,其中智能体在进入新任务前,会总结已完成的工作阶段并将基本信息存储在外部记忆中。当接近上下文限制时,智能体可以生成具有干净上下文的新子智能体,同时通过精心的交接保持连续性。此外,它们可以从记忆中检索存储的上下文(如研究计划),而不是在达到上下文限制时丢失之前的工作。这种分布式方法在保持扩展对话连贯性的同时,防止了上下文溢出。

将子智能体的输出保存到文件系统,以最大限度地减少“传话游戏”。 对于某些类型的结果,子智能体的直接输出可以绕过主协调者,从而提高保真度和性能。与其要求子智能体通过主智能体传达所有信息,不如实现一个工件(artifact)系统,让专业智能体可以创建独立持久的输出。子智能体调用工具将其工作存储在外部系统中,然后将轻量级的引用传回给协调者。这可以防止在多阶段处理过程中的信息丢失,并减少因在对话历史中复制大型输出而产生的 token 开销。这种模式特别适用于结构化输出,如代码、报告或数据可视化,因为子智能体的专业化提示比通过通用协调者过滤能产生更好的结果。