适用人群
房地产智能追踪器是为房地产分析师、投资者、房地产科技初创公司和市场研究人员设计的强大自动化工作流程,他们需要从全网房地产列表中大规模收集和分析结构化数据。
该工作流程适用于:
-
房地产分析师 – 追踪房产价格、位置和市场趋势
-
投资公司 – 为投资组合决策寻找高机会房源
-
房地产科技开发者 – 为SaaS平台自动化房源洞察
-
市场研究人员 – 从竞争性住房数据中提取洞察
-
增长团队 – 监测地理房产趋势和价格波动
该工作流程解决的问题
由于机器人防护和非结构化HTML内容,从房产网站收集结构化房源数据非常困难。手动数据收集速度慢且容易出错,传统爬虫经常被拦截或遗漏上下文。
该工作流程解决以下问题:
-
使用Bright Data Web Unlocker自动绕过反机器人防护
-
使用Markdown-to-text LLM管道将非结构化HTML内容转换为干净文本
-
使用OpenAI结构化提取关键房源数据,如价格、位置、房产类型和特征
-
将洞察汇总并交付到Google Sheets、本地存储和基于Webhook的警报
工作流程功能
转换为文本:使用Basic LLM Chain将抓取的HTML/markdown转换为干净文本
结构化数据提取:使用OpenAI GPT-4o和信息提取节点解析房产属性(价格、地址、面积、类型等)
聚合与合并:将多个页面或房源的数据合并为统一结构
出站数据处理:
-
Google Sheets – 追加结构化房地产数据以供进一步分析
-
保存到磁盘 – 本地持久化结构化JSON/文本数据
-
Webhook通知 – 向任何第三方平台发送数据警报或摘要
前提条件
- 您需要拥有一个Bright Data账户,并按照下面的“设置”部分进行必要的设置。
- 您需要拥有一个OpenAI账户。
设置
- 在Bright Data注册。
- 导航至Proxies & Scraping,在Scraping Solutions下选择Web Unlocker API,创建新的Web Unlocker区域。
- 在n8n中,在Credentials下配置Header Auth账户(Generic Auth Type: Header Authentication)。
Value字段应设置为
Bearer XXXXXXXXXXXXXX。XXXXXXXXXXXXXX应替换为Web Unlocker Token。 - 在n8n中,使用您自己的账户配置Google Sheet Credentials。遵循此文档 – 设置Google Sheet凭证
- 在n8n中,配置OpenAi账户凭证。
- 确保在设置URL、文件名和Bright Data区域节点中正确设置了URL和Bright Data区域名称。
- 在写入文件到磁盘节点中设置所需的本地路径以保存响应。
如何根据需求自定义工作流程
目标多个网站或位置
-
动态更新Bright Data URL节点,包含区域房地产网站列表
-
循环不同的城市/州筛选URL
自定义提取字段
修改信息提取器提示以提取以下字段:
-
房产面积、卧室/浴室数量
-
上市天数
-
附近便利设施或学校
-
经纪人联系方式
集成更多目的地
-
添加节点以将数据导出到Notion、Airtable、HubSpot或您的自定义数据库
-
使用PDF生成器生成自动报告并通过电子邮件发送
数据质量和日志记录
-
添加验证检查(例如缺失价格或地址)
-
保存中间文件(markdown、原始HTML、JSON输出)到磁盘以供审计