使用评估节点评估多智能体AI工作流中的工具使用准确性

适用对象

本工作流非常适合在n8n中运行多智能体系统的AI开发者,这些开发者需要定量评估工具使用行为。如果您正在构建自主智能体,并希望根据真实期望验证其决策,这个工作流为您提供了即插即用的可观测性。

功能说明

该模板使用n8n内置的评估触发器和评估节点来评估AI智能体是否正确使用了所有预期工具。它支持:

  • 基于数据集的智能体行为测试

  • 记录实际使用的工具并与预期工具进行对比

  • 分配性能指标(tool_called = true/false)

  • 将输出持久化到Google表格以便进一步调试

工作流可以通过聊天输入或数据集行评估触发。它通过由最佳LLM驱动的多工具智能体节点进行路由。该智能体可以访问诸如网络搜索、计算器、向量搜索和摘要工具等工具。然后,工作流旨在通过从智能体中提取中间步骤(即动作+观察)并将调用的工具与预期工具进行比较来验证工具使用决策。如果工作流执行期间调用的工具匹配,则为通过;否则记录为失败。评估节点负责该过程。

设置方法

  1. 连接您的Google表格OAuth2凭证。用您自己的测试数据集替换文档。

  2. 设置您想要的模型并配置不同的智能体工具,如摘要器和向量存储。默认使用的向量存储是Qdrant,因此用户必须创建此向量存储,并附带一些查询+网络搜索结果的样本。

  3. 从聊天触发器或评估触发器运行以进行测试。

要求

  • Google表格OAuth2凭证

  • 用于AI智能体和嵌入的OpenRouter/OpenAI凭证

  • 用于网络+向量搜索的Firecrawl和Qdrant凭证

自定义方法

  • 编辑搜索智能体系统消息以定义工具选择行为

  • 在评估节点中添加更多指标列以进行复杂评分

  • 添加新工具节点并将其链接到智能体块

  • 替换为您自己的摘要器

(0)
上一篇 5天前
下一篇 5天前

更多相关内容

从零掌握 AI + MCP/Responses API 的自动化设计,节省90%的时间和成本,成为AI自动化专家。学会 n8n、Coze、Dify 接入全球领先 AI应用生态,打造属于你的 AI智能工作流。