Official website

抓取网页数据

如果需要处理网页的一部分数据，这里就是最佳方案。

在数据集详情页中的“导入数据来源”选择从网页导入“新建任务”

所有的导入都称为任务，一个任务中可以添加特定多条类似数据进行处理。本章节抓取网页任务只能添加一条网页链接。

1. 创建新任务

点击“新建任务”按钮，开始创建从网页导入数据的新任务。
在弹出的页面中，首先为你的任务输入一个名称（最多20个字符）。这个名称会帮助你在任务列表中快速识别和管理任务。

2. 输入网页地址

在“URL地址”框中，输入你想要抓取的网页链接。确保链接以http或https开头。
如果你要抓取多个网页，可以输入一个包含分页的列表页地址。

3. 配置抓取内容

选择抓取类型：

选择“列表页”时，系统将抓取页面中列出的所有链接和内容。
选择“详情页”时，系统将专注于抓取某个特定页面的内容，如新闻文章或产品详情。

4. 高级设置（可选）

设置分页抓取：
- 如果你的目标网页有分页（如多个产品页或文章列表），你可以在“分页设置”中配置抓取规则。
- 通常情况下有分页模块才能抓取，配置完成后系统会自动抓取所有分页的列表数据。
设置抓取深度：
- 默认情况下，系统只抓取输入的网址。如果你想要抓取更多层级的页面（例如，通过链接进入下一页），可以调整抓取深度。
- 默认深度为 1，指下探 1 层。
设置抓取频率和时间：
- 如果你希望定期抓取网页内容，可以设置任务的抓取频率（例如每小时、每天等）。
- 开启后如需停止请在导入页的任务列表中点击停止按钮手动停止。
- 用于新闻列表等链接不变，网页内容更新的情况。

5. 获取参数

在创建任务时，必须要配置获取参数，这一步帮助系统理解需要抓取的网页内容。

选择网页类型

默认类型：
- 列表页：选择此类型时，系统将抓取页面中的所有列表项，如文章目录、产品列表等。
- 详情页：选择此类型时，系统将抓取单个页面的详细内容，如单篇文章、产品详情。
- 如果选择开启抓取深度时，即使你添加的任务是列表页也会显示获取详情页参数。
自定义字段：
- 如果你需要将抓取的特定数据分类到特定字段中，可以点击“启用自定义字段”并添加字段名称和描述。
- 例如，网页中有个昵称需要抓取，字段名称key为：nickname；字段描述为：user nickname。
- 请使用全英文添加，字段描述越详细抓取越准确。

6. 输出设置

在配置完高级设置和获取参数后，你还需要配置输出设置，以决定抓取到的数据如何保存和导出。

设置输出格式
- 你可以选择将抓取的数据保存为 JSON 或 Markdown 格式。JSON 格式更利于后续 API 程序调用处理。Markdown 格式更有利于知识库数据处理。
选择输出的数据内容
- 列表数据输出：
  - 如果抓取的是列表页内容，可以选择只导出列表数据。
- 详情页数据输出：
  - 如果抓取的是详情页内容，可以选择导出详情页。
  - 当添加的任务是列表页但开启抓取深度时，可选只输出详情页不保留列表页数据。

7. 保存或立即执行任务

保存并稍后执行：
- 如果你想先配置好任务，但不立即开始抓取，可以点击“保存并稍后执行”按钮。任务会保存到任务列表中，你可以稍后手动启动。
立即执行任务：
- 如果你准备好立即抓取网页数据，点击“立即执行任务”按钮。系统将开始抓取数据，并将其导入到指定的数据集中。

8. 查看任务进度

在导入页面，你可以实时查看任务的进展情况。点击“正在导入”标签，可以看到任务的进度条和详细信息。
如果任务失败，系统会生成错误报告，帮助你了解失败的原因并进行调整。

上一页导入元数据下一页导入本地文本处理

最后更新于5个月前