这个n8n工作流展示了如何通过多模态大语言模型(LLM)结合AI视觉技术,解决棘手的图像验证任务——这些任务几乎无法通过代码实现,且人工大规模处理也不切实际。
当用户提交的照片或图像需要满足特定条件才能被接受时,图像验证就派上用场了。例如,葡萄酒评论网站可能要求用户仅提交带标签的葡萄酒照片,银行可能要求账户持有人提交扫描文件进行验证等。
本次演示的场景是分析一组人像照片,根据英国政府官网(https://www.gov.uk/photos-for-passports)的标准,验证它们是否符合有效护照照片的要求。
运作原理
- 通过Google Drive节点下载一组人像JPG文件。
- 使用Edit Image节点调整每张图片尺寸,平衡分辨率与处理速度。
- 在Basic LLM节点中定义二进制(数据)类型的”用户消息”选项,将人像作为输入传递给LLM。
- LLM根据从护照照片要求网页提取的提示词,判断照片是否符合标准。
- 通过结构化输出解析器将LLM响应转为含”is_valid”布尔值的JSON对象,便于扩展工作流。
需求条件
- Google Gemini API密钥
- Google Drive账户
自定义工作流
-
不想用Gemini?n8n的LLM节点兼容任何多模态LLM,可替换为OpenAI的GPT4o或Anthropic的Claude Sonnet。
-
无需验证人像?可尝试文档分类、监控录像分析、照片人物标记等其他用例。