导入网页任务
输入一个想要抓取内容的地址作为contentUrl,设置抓取规则以及循环定时规则,系统将按照既定的规则抓去相应页面上的参数
Request body:
Response (Data部分):
Request:
Parameter
Type
Required
Description
contentUrl
STRING
YES
抓取目标网址
getDemandFormat
STRING
YES
输出文档格式:
1 : json
2 : markdown
contentType
STRING
YES
网页类型:
list : 列表页
detail : 详情页
title
INTEGER
YES
详情页获取默认字段-网页标题:
1 : 获取
0 : 不获取
contentDetails
INTEGER
YES
详情页获取默认字段-网页内容详情:
1 : 获取
0 : 不获取
name
STRING
NO
列表类参数-列表列标题:
1 : 获取
0 : 不获取
link
STRING
NO
列表类参数-列表列超链接:
1 : 获取
0 : 不获取
publicationTime
STRING
NO
列表类参数-列表列发布时间:
1 : 获取
0 : 不获取
customKeys
OBJECT
NO
自定义字段
-key
STRING
NO
获取自定义字段键名
-desc
STRING
NO
获取自定义字段描述
loopTimeValue
INTEGER
NO
循环执行间隔时长:
如果不需要循环执行则填写“0”;
单位小时;
详情页面不能传递此参数
needPage
STRING
NO
是否需要分页:
1 : 分页
0 : 不分页
详情页面不能传递此参数
depthValue
STRING
NO
下探深度:
如果不需要下探可传0;
详情页面不能传递此参数
Response (Data部分):
Parameter
Type
Description
num
INTEGER
处理文件数量
taskId
STRING
导入任务id,可用于查询任务执行情况
最后更新于