本工作流程旨在利用Mistral的OCR功能处理PDF文档,将提取的文本存储在Qdrant向量数据库中,并启用检索增强生成(RAG)来回答问题。以下是其工作原理:
一旦配置完成,该工作流程将自动执行文档摄取、向量化和智能查询,实现强大的RAG应用。
优势
-
端到端自动化
无需手动操作:文档的读取、处理和查询均可通过最小化设置完成。 -
可扩展且模块化
工作流程使用子流程和批处理,便于扩展和定制。 -
多模型支持
结合Mistral进行OCR、OpenAI生成嵌入、Gemini智能回答,充分发挥各模型的优势。 -
实时问答
通过RAG集成,用户可以用自然语言查询文档内容,并获得基于PDF数据的准确回答。 -
轻量或完整模式
用户可以选择索引完整页面内容或仅摘要文本,优化性能或丰富性。
工作原理
-
使用Mistral OCR处理PDF:
- 工作流程首先将PDF文件上传到Mistral的API,执行OCR以提取文本和元数据。
- 提取的内容被分割为可管理的块(如页面或章节)以便进一步处理。
-
在Qdrant中存储向量:
- 使用OpenAI的嵌入模型将提取的文本转换为嵌入向量。
- 这些嵌入向量存储在Qdrant向量数据库中,便于RAG的高效相似性搜索。
-
通过RAG进行问答:
- 当用户通过聊天界面提交问题时,工作流程利用向量相似性从Qdrant检索相关文本块。
- 语言模型(Google Gemini)基于检索到的上下文生成答案,提供准确且上下文感知的回答。
-
可选摘要:
- 工作流程包含一个可选的摘要步骤,使用Google Gemini压缩提取的文本,以便更快处理或更轻量的RAG使用。
设置步骤
在n8n中部署此工作流程,请按照以下步骤操作:
-
配置Qdrant数据库:
- 在“创建集合”和“刷新集合”节点中替换
QDRANTURL
和COLLECTION
为您的Qdrant实例详情。 - 确保Qdrant集合配置了正确的向量大小(如OpenAI嵌入的1536)和距离度量(如余弦)。
- 在“创建集合”和“刷新集合”节点中替换
-
设置凭证:
- 添加以下凭证:
- Mistral Cloud API(用于OCR处理)。
- OpenAI API(用于嵌入)。
- Google Gemini API(用于聊天和摘要)。
- Google Drive(如果从Drive获取PDF)。
- Qdrant API(用于向量存储)。
- 添加以下凭证:
-
PDF来源配置:
- 如果使用Google Drive,在“搜索PDF”节点中指定文件夹ID。
- 或者修改工作流程以接受其他来源的PDF(如直接上传或外部API)。
-
自定义文本处理:
- 在“令牌分割器”节点中调整块大小和重叠,以优化您的文档类型。
- 通过在“设置页面”和“摘要链”节点之间切换,选择RAG的原始文本或摘要内容。
-
测试RAG:
- 手动或通过聊天消息触发工作流程,验证OCR、嵌入和Qdrant存储。
- 使用“问答链”节点测试查询响应。
-
可选子工作流程:
- 工作流程支持作为子工作流程执行,用于批处理(如处理多个PDF)。