使用评估节点评估多智能体AI工作流中的工具使用准确性

疯哥 • n8n工作流 • 2025年7月14日上午9:25

适用对象

本工作流非常适合在n8n中运行多智能体系统的AI开发者，这些开发者需要定量评估工具使用行为。如果您正在构建自主智能体，并希望根据真实期望验证其决策，这个工作流为您提供了即插即用的可观测性。

功能说明

该模板使用n8n内置的评估触发器和评估节点来评估AI智能体是否正确使用了所有预期工具。它支持：

基于数据集的智能体行为测试
记录实际使用的工具并与预期工具进行对比
分配性能指标（tool_called = true/false）
将输出持久化到Google表格以便进一步调试

工作流可以通过聊天输入或数据集行评估触发。它通过由最佳LLM驱动的多工具智能体节点进行路由。该智能体可以访问诸如网络搜索、计算器、向量搜索和摘要工具等工具。然后，工作流旨在通过从智能体中提取中间步骤（即动作+观察）并将调用的工具与预期工具进行比较来验证工具使用决策。如果工作流执行期间调用的工具匹配，则为通过；否则记录为失败。评估节点负责该过程。

设置方法

连接您的Google表格OAuth2凭证。用您自己的测试数据集替换文档。
设置您想要的模型并配置不同的智能体工具，如摘要器和向量存储。默认使用的向量存储是Qdrant，因此用户必须创建此向量存储，并附带一些查询+网络搜索结果的样本。
从聊天触发器或评估触发器运行以进行测试。

要求

Google表格OAuth2凭证
用于AI智能体和嵌入的OpenRouter/OpenAI凭证
用于网络+向量搜索的Firecrawl和Qdrant凭证

自定义方法

编辑搜索智能体系统消息以定义工具选择行为
在评估节点中添加更多指标列以进行复杂评分
添加新工具节点并将其链接到智能体块
替换为您自己的摘要器

赞 (0)

0

通过互动式分步教程学习JSON基础知识（适合初学者）

上一篇 2025年7月14日上午9:24

在Google表格中追踪AI代理的令牌使用情况并估算成本

下一篇 2025年7月14日上午9:25

从零掌握 AI + MCP/Responses API 的自动化设计，节省90%的时间和成本，成为AI自动化专家。学会 n8n、Coze、Dify 接入全球领先 AI应用生态，打造属于你的 AI智能工作流。