使用Mistral OCR、Qdrant和Gemini AI构建PDF文档RAG系统

本工作流程旨在利用Mistral的OCR功能处理PDF文档，将提取的文本存储在Qdrant向量数据库中，并启用检索增强生成（RAG）来回答问题。以下是其工作原理：
一旦配置完成，该工作流程将自动执行文档摄取、向量化和智能查询，实现强大的RAG应用。

使用Mistral OCR处理PDF：
- 工作流程首先将PDF文件上传到Mistral的API，执行OCR以提取文本和元数据。
- 提取的内容被分割为可管理的块（如页面或章节）以便进一步处理。
在Qdrant中存储向量：
- 使用OpenAI的嵌入模型将提取的文本转换为嵌入向量。
- 这些嵌入向量存储在Qdrant向量数据库中，便于RAG的高效相似性搜索。
通过RAG进行问答：
- 当用户通过聊天界面提交问题时，工作流程利用向量相似性从Qdrant检索相关文本块。
- 语言模型（Google Gemini）基于检索到的上下文生成答案，提供准确且上下文感知的回答。
可选摘要：
- 工作流程包含一个可选的摘要步骤，使用Google Gemini压缩提取的文本，以便更快处理或更轻量的RAG使用。

在n8n中部署此工作流程，请按照以下步骤操作：

配置Qdrant数据库：
- 在“创建集合”和“刷新集合”节点中替换QDRANTURL和COLLECTION为您的Qdrant实例详情。
- 确保Qdrant集合配置了正确的向量大小（如OpenAI嵌入的1536）和距离度量（如余弦）。
设置凭证：
- 添加以下凭证：
  - Mistral Cloud API（用于OCR处理）。
  - OpenAI API（用于嵌入）。
  - Google Gemini API（用于聊天和摘要）。
  - Google Drive（如果从Drive获取PDF）。
  - Qdrant API（用于向量存储）。
PDF来源配置：
- 如果使用Google Drive，在“搜索PDF”节点中指定文件夹ID。
- 或者修改工作流程以接受其他来源的PDF（如直接上传或外部API）。
自定义文本处理：
- 在“令牌分割器”节点中调整块大小和重叠，以优化您的文档类型。
- 通过在“设置页面”和“摘要链”节点之间切换，选择RAG的原始文本或摘要内容。
测试RAG：
- 手动或通过聊天消息触发工作流程，验证OCR、嵌入和Qdrant存储。
- 使用“问答链”节点测试查询响应。
可选子工作流程：
- 工作流程支持作为子工作流程执行，用于批处理（如处理多个PDF）。

联系我获取咨询和支持，或在Linkedin上添加我。