递归网页抓取
使用场景
通过递归深度自动化抓取网页内容,非常适合跨多个链接页面收集内容——无论是内容聚合、潜在客户生成还是研究项目都能完美胜任。
自动化功能
该自动化程序从Google表格读取URL列表,抓取每个页面内容存储到文档中,并将新发现的链接添加回表格。根据设定的抓取深度,该过程会重复指定次数的迭代。
输入参数:
种子URL
:开始抓取的起始URL。
示例:https://example.com/
链接必须包含
:限制链接仅包含指定字符串。
示例:https://example.com/
深度
:在初始链接集之外要抓取的迭代次数(链接层数)。
示例:3
工作原理
- 从Google表格读取
种子URL
开始。 - 抓取每个页面并将其内容保存到指定文档。
- 从每个页面提取符合
链接必须包含
字符串的新链接,将它们追加到Google表格。 - 根据
深度 - 1
指定的次数重复步骤2–3。
设置要求
- Airtop API密钥——可免费生成。
- 设置Google文档的凭据(需要在Google控制台创建项目)。阅读操作方法。
- 设置Google表格的凭据。
后续步骤
- 添加过滤规则:根据域名、路径或内容类型过滤要跟踪的链接。
- 与调度器结合:按计划运行此自动化程序以持续探索新发现的页面。
- 导出结构化数据:扩展流程将提取的数据存储到CSV或数据库中以供分析。
了解更多关于为LLMS抓取网站数据