准备数据

未标注数据

准备标签

  • 「一站式平台」提供了常见的数据标签作为预置标签,方便用户按需使用
数据类型标注类型预置标签组说明
 文本、表格  文本分类  IMDB文本情感分类  基于 IMDB 影评的文本标签,分为 positive/negative 
 文本、表格  中文分词  -  中文分词指的是中文在基本文法上有其特殊性而存在的分词 
 文本、表格  命名实体识别  -  命名实体识别(Named Entity Recognition,NER)是 NLP 中一项非常基础的任务。NER 是信息提取、问答系统、句法分析、机器翻译等众多 NLP 任务的重要基础工具 

文本数据准备

  • 目前支持的格式.txt;单个文件不大于 100 KB
  • 数据集名称只支持中文、英文、数字、下划线和英文横杠
  • 如果文本数据集关联的不是预置标签组,「自动标注」功能可能无法使用
  • 导入数据之前请先确认编码格式为 UTF-8 的编码格式
  • 文件格式: .txt, 单个文件不大于 5 MB,单次上传限制 5000 个文本文件
  • 上传文件数量过大推荐使用数据集脚本工具

表格数据准备

  • 目前支持的格式包括.csv/.xls/.xlsx;单个文件不大于 5 MB
  • 数据集名称只支持中文、英文、数字、下划线和英文横杠
  • 导入数据之前请先确认编码格式为 UTF-8 的编码格式
  •  表格模板下载 

导入表格

图 1 导入表格
图 1 导入表格

点击「下一步」,选择需要的列

图 2 选择数据
图 2 选择数据

点击「下一步」,表格文件进行转换,最终转换为文本

图 3 文件转换
图 3 文件转换
图 4 转换结果
图 4 转换结果

查看转换结果

图 5 查看详情
图 5 查看详情

本地已标注数据集

  • 文本格式支持 txt,位于 origin 目录下,不支持目录嵌套
  • 本地数据集需要包括文本(origin 目录)、标注文件(annotation 目录)和标签文件三部分
  • 标注文件为 json 格式,位于 annotation 目录下,必须和文件同名(如果不存在标注,可不上传),不支持目录嵌套
  • 标签文件为 json 格式,命名要求为 label_{name}.json,其中 name 为标签组名称,不能与系统已有标签组重名
  • 导入的文件名称不能重复

目录说明

本地数据集需要包括源文件(origin 目录)、标注文件(annotation 目录)和标签文件三部分

图 6 导入数据集目录说明
图 6 导入数据集目录说明

标签文件

格式:

name: 名称
color: 颜色(16进制编码)

详细示例:

[{
"name": "negtive movie review",
"color": "#ffbb96"
},
{
"name": "positive movie review",
"color": "#fcffe6"
}]

标注文件

格式:

name: 对应标签名称
score:置信分数(0-1)

详细示例:

[{"name":"negtive movie review","score":1}]
Last updated on