使用Mistral OCR、Qdrant和Gemini AI构建PDF文档RAG系统

这个工作流程旨在使用Mistral的OCR功能处理PDF文档，将提取的文本存储在Qdrant向量数据库中，并启用检索增强生成（RAG）来回答问题。其工作原理如下：
一旦配置完成，工作流程将自动执行文档摄取、向量化和智能查询，从而实现强大的RAG应用。
—
### 优势
– **端到端自动化**
无需手动操作：文档的读取、处理和查询只需最少的设置即可完成。
– **可扩展和模块化**
工作流程使用子流程和批处理，易于扩展和定制。
– **多模型支持**
结合Mistral进行OCR、OpenAI生成嵌入、Gemini智能回答，充分发挥每个模型的优势。
– **实时问答**
通过RAG集成，用户可以用自然语言查询文档内容，并获得基于PDF数据的准确回答。
– **轻量或完整模式**
用户可以选择索引完整页面内容或仅索引摘要文本，以优化性能或丰富性。
—
### 工作原理
1. **使用Mistral OCR处理PDF**
– 工作流程首先将PDF文件上传到Mistral的API，执行OCR以提取文本和元数据。
– 提取的内容被分割为可管理的块（如页面或章节）以便进一步处理。
2. **在Qdrant中存储向量**
– 使用OpenAI的嵌入模型将提取的文本转换为嵌入向量。
– 这些嵌入向量存储在Qdrant向量数据库中，以便为RAG实现高效的相似性搜索。
3. **使用RAG进行问答**
– 当用户通过聊天界面提交问题时，工作流程使用向量相似性从Qdrant检索相关文本块。
– 语言模型（Google Gemini）基于检索到的上下文生成答案，提供准确且上下文感知的响应。
4. **可选摘要功能**
– 工作流程包含一个可选的摘要步骤，使用Google Gemini压缩提取的文本，以实现更快的处理或更轻量的RAG使用。
—
### 设置步骤
要在n8n中部署此工作流程，请按照以下步骤操作：
1. **配置Qdrant数据库**
– 在“创建集合”和“刷新集合”节点中替换`QDRANTURL`和`COLLECTION`为您的Qdrant实例详情。
– 确保Qdrant集合配置了正确的向量大小（如OpenAI嵌入的1536）和距离度量（如余弦）。
2. **设置凭证**
– 添加以下凭证：
– **Mistral Cloud API**（用于OCR处理）。
– **OpenAI API**（用于嵌入）。
– **Google Gemini API**（用于聊天和摘要）。
– **Google Drive**（如果从Drive获取PDF）。
– **Qdrant API**（用于向量存储）。
3. **PDF源配置**
– 如果使用Google Drive，请在“搜索PDF”节点中指定文件夹ID。
– 或者修改工作流程以接受其他来源的PDF（如直接上传或外部API）。
4. **自定义文本处理**
– 在“令牌分割器”节点中调整块大小和重叠以优化文档类型。
– 通过切换“设置页面”和“摘要链”节点选择原始文本或摘要内容用于RAG。
5. **测试RAG**
– 手动或通过聊天消息触发工作流程以验证OCR、嵌入和Qdrant存储。
– 使用“问答链”节点测试查询响应。
6. **可选子工作流程**
– 工作流程支持作为子工作流程执行以进行批处理（如处理多个PDF）。
—
### 需要帮助定制？
如需咨询和支持，请[联系我](mailto:contact@example.com)或在[Linkedin](https://www.linkedin.com/in/davideboizza/)上添加我。

使用Mistral OCR、Qdrant和Gemini AI构建PDF文档RAG系统

更多相关内容