使用Mistral OCR、Qdrant和Gemini AI构建PDF文档RAG系统

该工作流旨在利用Mistral的OCR功能处理PDF文档,将提取的文本存储在Qdrant向量数据库中,并实现检索增强生成(RAG)来回答问题。其工作原理如下:

配置完成后,工作流可自动完成文档导入、向量化和智能查询,实现强大的RAG应用。


优势

  • 端到端自动化
    无需人工干预:通过简单设置即可实现文档读取、处理和可查询化。

  • 可扩展和模块化
    工作流采用子流程和批处理,易于扩展和定制。

  • 多模型支持
    结合Mistral进行OCR、OpenAI生成嵌入、Gemini智能回答——充分发挥各模型优势。

  • 实时问答
    通过RAG集成,用户可以用自然语言查询文档内容,并获得基于PDF数据的准确回答。

  • 精简或完整模式
    用户可选择索引完整页面内容或仅摘要文本,优化性能或丰富度。


工作原理

  1. 使用Mistral OCR处理PDF

    • 工作流首先将PDF文件上传至Mistral API进行OCR文本和元数据提取。
    • 提取的内容被分割成可管理的块(如页面或章节)以便进一步处理。
  2. 在Qdrant中存储向量

    • 使用OpenAI的嵌入模型将提取的文本转换为嵌入向量。
    • 这些嵌入向量存储在Qdrant向量数据库中,便于RAG的高效相似性搜索。
  3. 基于RAG的问答

    • 当用户通过聊天界面提交问题时,工作流利用向量相似性从Qdrant检索相关文本块。
    • 语言模型(Google Gemini)基于检索到的上下文生成答案,提供准确且情境感知的响应。
  4. 可选摘要

    • 工作流包含一个可选的摘要步骤,使用Google Gemini压缩提取的文本,以加快处理速度或减轻RAG负担。

设置步骤

在n8n中部署此工作流,请按以下步骤操作:

  1. 配置Qdrant数据库

    • 在“创建集合”和“刷新集合”节点中替换QDRANTURLCOLLECTION为你的Qdrant实例信息。
    • 确保Qdrant集合配置了正确的向量大小(如OpenAI嵌入为1536)和距离度量(如余弦)。
  2. 设置凭证

    • 添加以下凭证:
      • Mistral Cloud API(用于OCR处理)。
      • OpenAI API(用于嵌入)。
      • Google Gemini API(用于聊天和摘要)。
      • Google Drive(如果从Drive获取PDF)。
      • Qdrant API(用于向量存储)。
  3. PDF源配置

    • 如果使用Google Drive,在“搜索PDF”节点中指定文件夹ID。
    • 或者修改工作流以接受其他来源的PDF(如直接上传或外部API)。
  4. 自定义文本处理

    • 在“令牌分割器”节点中调整块大小和重叠,以优化文档类型。
    • 通过切换“设置页面”和“摘要链”节点选择RAG使用原始文本或摘要内容。
  5. 测试RAG

    • 手动或通过聊天消息触发工作流,验证OCR、嵌入和Qdrant存储。
    • 使用“问答链”节点测试查询响应。
  6. 可选子工作流

    • 工作流支持作为子工作流执行以进行批处理(如处理多个PDF)。

需要定制帮助?

联系我获取咨询和支持,或在Linkedin上添加我。

(0)
上一篇 5天前
下一篇 5天前

更多相关内容

从零掌握 AI + MCP/Responses API 的自动化设计,节省90%的时间和成本,成为AI自动化专家。学会 n8n、Coze、Dify 接入全球领先 AI应用生态,打造属于你的 AI智能工作流。