导入本地文本处理

如果你的原始数据是文本,那么就按照此文档进行处理。

在数据集详情页中的“导入数据来源”选择从本地文本导入“新建任务”

所有的导入都称为任务,一个任务中可以添加特定多条类似数据进行处理。本章节本地文本任务可添加多条文本数据。

1. 创建新任务

Create a new task to import from local text for the dataset

在任务创建页面,为你的任务输入一个名称(最多20个字符)。这个名称将帮助你在任务列表中快速找到和管理这个任务。

2. 上传本地文本文件

  1. 点击上传区域,将你要导入的本地文件拖拽到上传框,或点击上传按钮选择文件进行上传。

  2. 支持的文件格式包括:.docx.pdf.txt.md.json

  3. 每次任务最多可以上传50个文件,每个文件大小不得超过200MB(某些情况下我们所使用的CDN可能只允许100M左右的文件上传)。

  4. 请确保一个任务内上传的多个文件与内容都是相似的,以便进行获取参数和输出处理。

3. 任务设置

  1. 任务设置与从网页导入任务类似,包括字段的配置和内容的提取。

  2. 按照文件类型选择合适的解析方式,确保系统能够正确处理上传的文本文件。

4. 获取参数

  1. 默认字段类型

    • 标题:系统将尝试从文件内容中提取标题信息。

    • 内容详情:系统将抓取并存储文件的主要内容。

  2. 自定义字段

    • 如果你需要将抓取的特定数据分类到特定字段中,可以点击“启用自定义字段”并添加字段名称和描述。

    • 例如,文本中有个昵称需要抓取,字段名称key为:nickname;字段描述为:user nickname。

    • 请使用全英文添加,字段描述越详细抓取越准确。

5. 输出设置

在配置完获取参数后,你还需要配置输出设置,以决定抓取到的数据如何保存和导出。

  1. 设置输出格式

    • 你可以选择将获取的数据保存为 JSON 或 Markdown 格式。JSON 格式更利于后续 API 程序调用处理。Markdown 格式更有利于知识库数据处理。

6. 保存或立即执行任务

  1. 保存并稍后执行

    • 如果你希望稍后再处理这个任务,可以点击“保存并稍后执行”按钮,任务会保存到任务列表中,供后续执行。

  2. 立即执行任务

    • 如果你准备好立即处理并导入这些文件,点击“立即执行任务”按钮,系统将开始处理文件并将其内容导入到指定的数据集中。

最后更新于