n8n中的AI评估
这是n8n评估功能的模板。
评估是一种通过工作流运行包含不同输入的测试数据集,来确认AI工作流程可靠性的技术。
通过为每个输入计算指标(分数),您可以了解工作流程在哪些方面表现良好,哪些方面存在问题。
工作原理
本模板展示了如何计算工作流评估指标:检索文档相关性(即从向量存储中检索的信息是否与问题相关)。
该工作流接收一个问题,并检查用于回答该问题的检索信息是否相关。
要运行此工作流,您需要将文档插入向量数据存储中,以便代理可以检索它们来回答问题。您可以通过运行工作流的上半部分一次来完成此操作。
主工作流程如下:
- 我们使用评估触发器读取数据集
- 它与常规触发器并行连接,以便可以从任一触发器启动工作流。更多信息
- 我们确保代理输出其使用工具中的列表数据
- 如果正在评估(即执行从评估触发器开始),我们使用AI计算相关性指标,将检索到的文档与问题进行比较
- 我们将此信息作为指标传递回n8n
- 如果不进行评估,我们会避免计算指标以降低成本