Supametas.AI
Official website
简体中文
简体中文
  • 欢迎来到 Supametas.AI
  • 云服务
    • Supametas.AI 云服务
      • 详细价格表对比
    • 指南
      • 创建数据集
      • 导入元数据
        • 抓取网页数据
        • 导入本地文本处理
        • 导入本地图片处理
        • 导入本地音频处理
        • 导入本地视频处理
      • 清洗数据查询
      • 导出清洗数据
      • 数据集配置
  • 开发者
    • 接入流程
    • 创建API-Key
    • 标准请求和响应
    • 业务接口
      • 导入文本文件
      • 导入网页任务
      • 导入图像文件
      • 导入音频文件
      • 导入视频文件
      • 查看导入任务详情
      • 删除处理文件任务
    • Webhook
    • 错误编码表
    • Demo
  • 其他
    • 社区
    • 寻求支持
由 GitBook 提供支持
在本页
  • 1. 创建新任务
  • 2. 输入网页地址
  • 3. 配置抓取内容
  • 4. 高级设置(可选)
  • 5. 获取参数
  • 6. 输出设置
  • 7. 保存或立即执行任务
  • 8. 查看任务进度
  1. 云服务
  2. 指南
  3. 导入元数据

抓取网页数据

如果需要处理网页的一部分数据,这里就是最佳方案。

上一页导入元数据下一页导入本地文本处理

最后更新于4个月前

在数据集详情页中的“导入数据来源”选择从网页导入“新建任务”

所有的导入都称为任务,一个任务中可以添加特定多条类似数据进行处理。本章节抓取网页任务只能添加一条网页链接。

1. 创建新任务

  1. 点击“新建任务”按钮,开始创建从网页导入数据的新任务。

  2. 在弹出的页面中,首先为你的任务输入一个名称(最多20个字符)。这个名称会帮助你在任务列表中快速识别和管理任务。

2. 输入网页地址

  1. 在“URL地址”框中,输入你想要抓取的网页链接。确保链接以http或https开头。

  2. 如果你要抓取多个网页,可以输入一个包含分页的列表页地址。

3. 配置抓取内容

选择抓取类型:

  • 选择“列表页”时,系统将抓取页面中列出的所有链接和内容。

  • 选择“详情页”时,系统将专注于抓取某个特定页面的内容,如新闻文章或产品详情。

4. 高级设置(可选)

  1. 设置分页抓取:

    • 如果你的目标网页有分页(如多个产品页或文章列表),你可以在“分页设置”中配置抓取规则。

    • 通常情况下有分页模块才能抓取,配置完成后系统会自动抓取所有分页的列表数据。

  2. 设置抓取深度:

    • 默认情况下,系统只抓取输入的网址。如果你想要抓取更多层级的页面(例如,通过链接进入下一页),可以调整抓取深度。

    • 默认深度为 1,指下探 1 层。

  3. 设置抓取频率和时间:

    • 如果你希望定期抓取网页内容,可以设置任务的抓取频率(例如每小时、每天等)。

    • 开启后如需停止请在导入页的任务列表中点击停止按钮手动停止。

    • 用于新闻列表等链接不变,网页内容更新的情况。

5. 获取参数

在创建任务时,必须要配置获取参数,这一步帮助系统理解需要抓取的网页内容。

选择网页类型

  1. 默认类型:

    • 列表页:选择此类型时,系统将抓取页面中的所有列表项,如文章目录、产品列表等。

    • 详情页:选择此类型时,系统将抓取单个页面的详细内容,如单篇文章、产品详情。

    • 如果选择开启抓取深度时,即使你添加的任务是列表页也会显示获取详情页参数。

  2. 自定义字段:

    • 如果你需要将抓取的特定数据分类到特定字段中,可以点击“启用自定义字段”并添加字段名称和描述。

    • 例如,网页中有个昵称需要抓取,字段名称key为:nickname;字段描述为:user nickname。

    • 请使用全英文添加,字段描述越详细抓取越准确。

6. 输出设置

在配置完高级设置和获取参数后,你还需要配置输出设置,以决定抓取到的数据如何保存和导出。

  1. 设置输出格式

    • 你可以选择将抓取的数据保存为 JSON 或 Markdown 格式。JSON 格式更利于后续 API 程序调用处理。Markdown 格式更有利于知识库数据处理。

  2. 选择输出的数据内容

    • 列表数据输出:

      • 如果抓取的是列表页内容,可以选择只导出列表数据。

    • 详情页数据输出:

      • 如果抓取的是详情页内容,可以选择导出详情页。

      • 当添加的任务是列表页但开启抓取深度时,可选只输出详情页不保留列表页数据。

7. 保存或立即执行任务

  1. 保存并稍后执行:

    • 如果你想先配置好任务,但不立即开始抓取,可以点击“保存并稍后执行”按钮。任务会保存到任务列表中,你可以稍后手动启动。

  2. 立即执行任务:

    • 如果你准备好立即抓取网页数据,点击“立即执行任务”按钮。系统将开始抓取数据,并将其导入到指定的数据集中。

8. 查看任务进度

  1. 在导入页面,你可以实时查看任务的进展情况。点击“正在导入”标签,可以看到任务的进度条和详细信息。

  2. 如果任务失败,系统会生成错误报告,帮助你了解失败的原因并进行调整。

Create a new web import task for the dataset