抓取网页数据
如果需要处理网页的一部分数据,这里就是最佳方案。
最后更新于
如果需要处理网页的一部分数据,这里就是最佳方案。
最后更新于
在数据集详情页中的“导入数据来源”选择从网页导入“新建任务”
所有的导入都称为任务,一个任务中可以添加特定多条类似数据进行处理。本章节抓取网页任务只能添加一条网页链接。
点击“新建任务”按钮,开始创建从网页导入数据的新任务。
在弹出的页面中,首先为你的任务输入一个名称(最多20个字符)。这个名称会帮助你在任务列表中快速识别和管理任务。
在“URL地址”框中,输入你想要抓取的网页链接。确保链接以http或https开头。
如果你要抓取多个网页,可以输入一个包含分页的列表页地址。
选择抓取类型:
选择“列表页”时,系统将抓取页面中列出的所有链接和内容。
选择“详情页”时,系统将专注于抓取某个特定页面的内容,如新闻文章或产品详情。
设置分页抓取:
如果你的目标网页有分页(如多个产品页或文章列表),你可以在“分页设置”中配置抓取规则。
通常情况下有分页模块才能抓取,配置完成后系统会自动抓取所有分页的列表数据。
设置抓取深度:
默认情况下,系统只抓取输入的网址。如果你想要抓取更多层级的页面(例如,通过链接进入下一页),可以调整抓取深度。
默认深度为 1,指下探 1 层。
设置抓取频率和时间:
如果你希望定期抓取网页内容,可以设置任务的抓取频率(例如每小时、每天等)。
开启后如需停止请在导入页的任务列表中点击停止按钮手动停止。
用于新闻列表等链接不变,网页内容更新的情况。
在创建任务时,必须要配置获取参数,这一步帮助系统理解需要抓取的网页内容。
选择网页类型
默认类型:
列表页:选择此类型时,系统将抓取页面中的所有列表项,如文章目录、产品列表等。
详情页:选择此类型时,系统将抓取单个页面的详细内容,如单篇文章、产品详情。
如果选择开启抓取深度时,即使你添加的任务是列表页也会显示获取详情页参数。
自定义字段:
如果你需要将抓取的特定数据分类到特定字段中,可以点击“启用自定义字段”并添加字段名称和描述。
例如,网页中有个昵称需要抓取,字段名称key为:nickname;字段描述为:user nickname。
请使用全英文添加,字段描述越详细抓取越准确。
在配置完高级设置和获取参数后,你还需要配置输出设置,以决定抓取到的数据如何保存和导出。
设置输出格式
你可以选择将抓取的数据保存为 JSON 或 Markdown 格式。JSON 格式更利于后续 API 程序调用处理。Markdown 格式更有利于知识库数据处理。
选择输出的数据内容
列表数据输出:
如果抓取的是列表页内容,可以选择只导出列表数据。
详情页数据输出:
如果抓取的是详情页内容,可以选择导出详情页。
当添加的任务是列表页但开启抓取深度时,可选只输出详情页不保留列表页数据。
保存并稍后执行:
如果你想先配置好任务,但不立即开始抓取,可以点击“保存并稍后执行”按钮。任务会保存到任务列表中,你可以稍后手动启动。
立即执行任务:
如果你准备好立即抓取网页数据,点击“立即执行任务”按钮。系统将开始抓取数据,并将其导入到指定的数据集中。
在导入页面,你可以实时查看任务的进展情况。点击“正在导入”标签,可以看到任务的进度条和详细信息。
如果任务失败,系统会生成错误报告,帮助你了解失败的原因并进行调整。