利用AI视觉自动化图像验证任务

这个n8n工作流展示了如何通过多模态大语言模型(LLM)结合AI视觉技术,解决棘手的图像验证任务——这些任务几乎无法通过代码实现,且人工大规模处理也不切实际。

当用户提交的照片或图像需要满足特定条件才能被接受时,图像验证就派上用场了。例如,葡萄酒评论网站可能要求用户仅提交带标签的葡萄酒照片,银行可能要求账户持有人提交扫描文件进行验证等。

本次演示的场景是分析一组人像照片,根据英国政府官网(https://www.gov.uk/photos-for-passports)的标准,验证它们是否符合有效护照照片的要求。

运作原理

  • 通过Google Drive节点下载一组人像JPG文件。
  • 使用Edit Image节点调整每张图片尺寸,平衡分辨率与处理速度。
  • 在Basic LLM节点中定义二进制(数据)类型的”用户消息”选项,将人像作为输入传递给LLM。
  • LLM根据从护照照片要求网页提取的提示词,判断照片是否符合标准。
  • 通过结构化输出解析器将LLM响应转为含”is_valid”布尔值的JSON对象,便于扩展工作流。

需求条件

  • Google Gemini API密钥
  • Google Drive账户

自定义工作流

  • 不想用Gemini?n8n的LLM节点兼容任何多模态LLM,可替换为OpenAI的GPT4o或Anthropic的Claude Sonnet。

  • 无需验证人像?可尝试文档分类、监控录像分析、照片人物标记等其他用例。

(0)
上一篇 6天前
下一篇 6天前

更多相关内容

从零掌握 AI + MCP/Responses API 的自动化设计,节省90%的时间和成本,成为AI自动化专家。学会 n8n、Coze、Dify 接入全球领先 AI应用生态,打造属于你的 AI智能工作流。