使用Mistral OCR、Qdrant和Gemini AI构建PDF文档RAG系统

该工作流旨在利用Mistral的OCR功能处理PDF文档，将提取的文本存储在Qdrant向量数据库中，并通过检索增强生成(RAG)实现智能问答。其运作方式如下：

配置完成后，工作流可自动完成文档解析、向量化和智能查询，实现强大的RAG应用。

在n8n中部署该工作流的步骤：

配置Qdrant数据库：
- 在”创建集合”和”刷新集合”节点中替换QDRANTURL和COLLECTION参数
- 确保集合配置正确的向量尺寸（如OpenAI需1536维）和距离度量（如余弦）
设置凭证：
- 配置以下API凭证：
  - Mistral Cloud API（OCR处理）
  - OpenAI API（向量嵌入）
  - Google Gemini API（聊天与摘要）
  - Google Drive（如从Drive获取PDF）
  - Qdrant API（向量存储）
PDF源配置：
- 使用Google Drive时，在”搜索PDF”节点指定文件夹ID
- 可修改工作流以支持其他PDF来源（如直接上传或外部API）
自定义文本处理：
- 在”令牌分割器”节点调整文本块大小和重叠度
- 通过切换”设置页面”和”摘要链”节点选择原始文本或摘要内容
测试RAG：
- 手动触发工作流测试OCR、嵌入和Qdrant存储功能
- 使用”问答链”节点验证查询响应
可选子工作流：
- 支持作为子工作流进行批量处理（如处理多个PDF）

联系我获取咨询支持，或通过Linkedin添加。