CtrlK

Official website

导入本地文本处理

如果你的原始数据是文本，那么就按照此文档进行处理。

在数据集详情页中的“导入数据来源”选择从本地文本导入“新建任务”

所有的导入都称为任务，一个任务中可以添加特定多条类似数据进行处理。本章节本地文本任务可添加多条文本数据。

1. 创建新任务

在任务创建页面，为你的任务输入一个名称（最多20个字符）。这个名称将帮助你在任务列表中快速找到和管理这个任务。

2. 上传本地文本文件

点击上传区域，将你要导入的本地文件拖拽到上传框，或点击上传按钮选择文件进行上传。
支持的文件格式包括：.docx、.pdf、.txt、.md、.json。
每次任务最多可以上传50个文件，每个文件大小不得超过200MB(某些情况下我们所使用的CDN可能只允许100M左右的文件上传)。
请确保一个任务内上传的多个文件与内容都是相似的，以便进行获取参数和输出处理。

3. 任务设置

任务设置与从网页导入任务类似，包括字段的配置和内容的提取。
按照文件类型选择合适的解析方式，确保系统能够正确处理上传的文本文件。

4. 获取参数

默认字段类型：
- 标题：系统将尝试从文件内容中提取标题信息。
- 内容详情：系统将抓取并存储文件的主要内容。
自定义字段：
- 如果你需要将抓取的特定数据分类到特定字段中，可以点击“启用自定义字段”并添加字段名称和描述。
- 例如，文本中有个昵称需要抓取，字段名称key为：nickname；字段描述为：user nickname。
- 请使用全英文添加，字段描述越详细抓取越准确。

5. 输出设置

在配置完获取参数后，你还需要配置输出设置，以决定抓取到的数据如何保存和导出。

设置输出格式
- 你可以选择将获取的数据保存为 JSON 或 Markdown 格式。JSON 格式更利于后续 API 程序调用处理。Markdown 格式更有利于知识库数据处理。

6. 保存或立即执行任务

保存并稍后执行：
- 如果你希望稍后再处理这个任务，可以点击“保存并稍后执行”按钮，任务会保存到任务列表中，供后续执行。
立即执行任务：
- 如果你准备好立即处理并导入这些文件，点击“立即执行任务”按钮，系统将开始处理文件并将其内容导入到指定的数据集中。

上一页抓取网页数据下一页导入本地图片处理

最后更新于7个月前