导入网页任务

输入一个想要抓取内容的地址作为contentUrl,设置抓取规则以及循环定时规则,系统将按照既定的规则抓去相应页面上的参数

Endpoint: POST: {{BaseUrl}}/web-task

Request body:

{
  "contentUrl": "https://yourdomain.com/news/13084793",
  "getDemandFormat":"json",
  "contentType":"list",
  "loopTimeValue":"24",
  "title":1,
  "contentDetails":1,
  "customKeys":[
      {
        "key":"c1",
        "desc":"c1 desc"
      }
  	],
  "loopTimeValue":"24",
  "needPage":"1",
  "depthValue":"3"
}

Response (Data部分):

{
  "num": 0,
  "taskId": "xxxx010"
}

Request:

Parameter
Type
Required
Description

contentUrl

STRING

YES

抓取目标网址

getDemandFormat

STRING

YES

输出文档格式:

1 : json

2 : markdown

contentType

STRING

YES

网页类型:

list : 列表页

detail : 详情页

title

INTEGER

YES

详情页获取默认字段-网页标题:

1 : 获取

0 : 不获取

contentDetails

INTEGER

YES

详情页获取默认字段-网页内容详情:

1 : 获取

0 : 不获取

name

STRING

NO

列表类参数-列表列标题:

1 : 获取

0 : 不获取

link

STRING

NO

列表类参数-列表列超链接:

1 : 获取

0 : 不获取

publicationTime

STRING

NO

列表类参数-列表列发布时间:

1 : 获取

0 : 不获取

customKeys

OBJECT

NO

自定义字段

-key

STRING

NO

获取自定义字段键名

-desc

STRING

NO

获取自定义字段描述

loopTimeValue

INTEGER

NO

循环执行间隔时长:

如果不需要循环执行则填写“0”;

单位小时;

详情页面不能传递此参数

needPage

STRING

NO

是否需要分页:

1 : 分页

0 : 不分页

详情页面不能传递此参数

depthValue

STRING

NO

下探深度:

如果不需要下探可传0;

详情页面不能传递此参数

Response (Data部分):

Parameter
Type
Description

num

INTEGER

处理文件数量

taskId

STRING

导入任务id,可用于查询任务执行情况

最后更新于