适用对象
本工作流非常适合在n8n中运行多智能体系统的AI开发者,这些开发者需要定量评估工具使用行为。如果您正在构建自主智能体,并希望根据真实期望验证其决策,这个工作流为您提供了即插即用的可观测性。
功能说明
该模板使用n8n内置的评估触发器和评估节点来评估AI智能体是否正确使用了所有预期工具。它支持:
-
基于数据集的智能体行为测试
-
记录实际使用的工具并与预期工具进行对比
-
分配性能指标(tool_called = true/false)
-
将输出持久化到Google表格以便进一步调试
工作流可以通过聊天输入或数据集行评估触发。它通过由最佳LLM驱动的多工具智能体节点进行路由。该智能体可以访问诸如网络搜索、计算器、向量搜索和摘要工具等工具。然后,工作流旨在通过从智能体中提取中间步骤(即动作+观察)并将调用的工具与预期工具进行比较来验证工具使用决策。如果工作流执行期间调用的工具匹配,则为通过;否则记录为失败。评估节点负责该过程。
设置方法
-
连接您的Google表格OAuth2凭证。用您自己的测试数据集替换文档。
-
设置您想要的模型并配置不同的智能体工具,如摘要器和向量存储。默认使用的向量存储是Qdrant,因此用户必须创建此向量存储,并附带一些查询+网络搜索结果的样本。
-
从聊天触发器或评估触发器运行以进行测试。
要求
-
Google表格OAuth2凭证
-
用于AI智能体和嵌入的OpenRouter/OpenAI凭证
-
用于网络+向量搜索的Firecrawl和Qdrant凭证
自定义方法
-
编辑搜索智能体系统消息以定义工具选择行为
-
在评估节点中添加更多指标列以进行复杂评分
-
添加新工具节点并将其链接到智能体块
-
替换为您自己的摘要器