使用Bright Data和OpenAI 4o mini进行DNB公司搜索与数据提取

使用Bright Data和OpenAI 4o mini进行DNB公司搜索与数据提取

DNB公司搜索与OpenAI 4o mini数据提取.png

注意

社区节点只能在自行托管的n8n实例上安装。

适用人群

DNB公司搜索与数据提取工作流专为需要从邓白氏(DNB)获取结构化商业情报的专业人士设计。

非常适合:

  • 市场研究人员

  • B2B销售与潜在客户开发专家

  • 商业分析师

  • 投资分析师

  • 构建金融知识图谱的AI开发人员

解决什么问题?

从DNB网站收集商业信息通常需要手动浏览、复制公司详情并整理到电子表格中。

该工作流自动化了整个数据收集流程 – 从通过Google搜索DNB、抓取相关页面,到结构化数据并保存为可用格式。

工作流功能

该工作流使用Bright Data的MCP搜索代理和OpenAI的4o mini模型,自动执行DNB公司资料的搜索、抓取和结构化提取。

包含以下步骤:

设置输入字段
提供search_query和webhook_notification_url。

Bright Data MCP客户端(搜索)
通过Google搜索DNB公司URL。

从DNB抓取Markdown
使用Bright Data抓取公司页面并返回markdown格式。

OpenAI LLM提取

将markdown转换为清晰的结构化数据。

提取商业信息(公司名称、规模、地址、行业等)

Webhook通知
将结构化响应发送到提供的webhook。

保存到磁盘
本地持久化存储结构化数据以供记录或审计。

前提条件

  1. 了解模型上下文协议(MCP)至关重要。请阅读这篇博客文章 – 模型上下文协议
  2. 需要拥有Bright Data账户,并完成下方设置部分提到的必要配置。
  3. 需要Google Gemini API密钥。访问Google AI Studio
  4. 需要安装Bright Data MCP服务器@brightdata/mcp
  5. 需要安装n8n-nodes-mcp

设置

  1. 请确保通过访问n8n-nodes-mcp在本地设置带有MCP服务器的n8n
  2. 请确保在本地机器上安装Bright Data MCP服务器@brightdata/mcp
  3. Bright Data注册。
  4. 导航至代理与抓取,在抓取解决方案下选择Web Unlocker API创建新的Web Unlocker区域。
  5. 在Bright Data控制面板创建名为mcp_unlocker的Web Unlocker代理区域。
  6. 在n8n中配置OpenAi账户凭证。
  7. 在n8n中配置与MCP客户端(STDIO)账户连接的凭证,如下所示连接Bright Data MCP服务器。

MCP客户端账户.png

确保在上面的环境文本框中复制Bright Data API_TOKEN作为API_TOKEN=<your-token>。
7. 更新search_query和webhook_notification_url的输入字段设置。
8. 更新要持久化保存到磁盘的文件名和路径。

如何根据需求自定义工作流

  • 搜索引擎
    默认为Google,但可以根据需要将MCP客户端引擎更改为Bing或Yandex。

  • 公司范围
    修改搜索查询逻辑进行细分过滤,例如”biotech startups site:dnb.com”。

  • 结构化字段
    自定义LLM提示以提取其他字段,如CEO姓名、收入或评级。

  • 集成
    使用额外的n8n节点将输出推送到Notion、Airtable或HubSpot等CRM系统。

  • 格式化
    使用内置的文件和电子表格节点将输出转换为PDF或CSV格式。

(0)
上一篇 19小时前
下一篇 19小时前

更多相关内容

从零掌握 AI + MCP/Responses API 的自动化设计,节省90%的时间和成本,成为AI自动化专家。学会 n8n、Coze、Dify 接入全球领先 AI应用生态,打造属于你的 AI智能工作流。