n8n中的AI评估
这是n8n平台评估功能的模板。
评估是通过在流程中运行包含不同输入的测试数据集,来确认AI工作流可靠性的技术。
通过为每个输入计算指标(分数),您可以了解工作流在哪些环节表现良好,哪些环节存在问题。
运作原理
本模板展示如何计算工作流评估指标:检索文档相关性(即从向量存储中检索的信息是否与问题相关)。
该工作流接收问题并检查为解答问题而检索的信息是否相关。
运行此工作流前,需要先将文档插入向量数据库,以便代理检索这些文档来回答问题。您可以通过单次运行工作流的上半部分实现此操作。
主工作流流程如下:
- 使用评估触发器读取数据集
- 与常规触发器并行连接,可从任一触发器启动工作流。更多信息
- 确保代理输出其使用工具中的列表数据
- 若处于评估模式(即从评估触发器启动执行),则使用AI计算相关性指标来比对检索文档与问题
- 将这些信息作为指标传回n8n
- 非评估模式下跳过指标计算以降低成本