数据标注

文本分类

前置条件

针对文本分类场景,是对文本的内容按照标签进行分类处理。

  • 在自动标注之前,请确保已经准备好标注算法和模型
  • 导入的文本格式必须为 UTF-8 的编码格式
  • 自动标注功能仅支持「文本分类」数据集

自动标注

数据集列表页选择需要标注的「文本分类」数据集,单击右边操作栏中的「自动标注」选择需要标注的模型,等待标注完成。

图 1 文本数据集
图 1 文本数据集

「文本分类」数据集「自动标注完成」点击操作「查看与标注」进入「文本分类」列表页。

图 2 自动标注完成
图 2 自动标注完成

「文本分类」数据集「自动标注完成」数据展示。

图 3 自动标注完成
图 3 自动标注完成

停止标注

数据集状态为「自动标注中」时可以通过「停止」按钮对正在标注的数据进行停止,停止后可以重新选择标注模型再次自动标注。

图 4 标注停止
图 4 标注停止

重新自动标注

数据集「自动标注完成」后根据模型类型选择标注模型和「有标注信息」进行重新自动标注,所有标注信息都会被清除,并再次运行自动标注算法生成新的结果。

图 5 重新自动标注
图 5 重新自动标注

手动标注

  • 手动标注有两种入口:
  1. 点击左上角「去标注」快速进入「标注详情页」
  2. 点击「查看」查看文本预览效果,点击「去标注」进入「标注详情页」

「文本分类」数据集点击操作「查看与标注」进入文本分类列表页。

图 6 文本列表页
图 6 文本列表页

根据文本内容选择标签进行标注,点击确认或使用键盘快捷键 C 。

图 7 文本标注
图 7 文本标注

「文本分类」数据集手动标注完成数据展示。

图 8 手动标注完成
图 8 手动标注完成

多标签标注

「文本分类」数据集支持「多标签」的标注,创建数据集时选择「多标签」,根据文本内容选择需要标注的标签。

图 9 文本分类多标签
图 9 文本分类多标签

中文分词

「中文分词」数据集点击操作「查看与标注」进入中文分词列表页。

图 10 中文分词
图 10 中文分词

点击「去标注」进入标注详情页,根据文本内容进行分词标注

图 11 中文分词
图 11 中文分词

「中文分词」手动标注完成数据展示。

图 12 中文分词
图 12 中文分词

命名实体识别

「命名实体识别」点击「查看与标注」进入命名实体识别列表页。

图 13  命名实体识别列表页
图 13  命名实体识别列表页

点击「去标注」进入标注详情页,根据文本内容进行标注。

图 14 文本预览
图 14 文本预览

「命名实体识别」手动标注完成数据展示。

图 15 命名实体识别
图 15 命名实体识别

其它

1. 添加文本

  • 添加文本的方式有三种:
  1. 上传文件数量过大推荐使用数据集脚本工具
  2. 数据集列表页右侧操作栏下点击「导入」选择需要上传的文件导入即可
  3. 文本列表页「无标注信息」点击「添加文本」选择需要上传的文件导入即可

2. 删除文本

  • 删除文本的方式有两种:
  1. 「文本预览页」中,点击「删除文本」,即可完成文本的删除操作
  2. 「文本列表页」选中复选框,然后单击左上角「删除」,即可完成文本的删除操作

3. 新增标签

「文本列表页」或「标注详情页」添加:单击标签组下「全部标签」右侧的加号,然后在弹出的「创建标签」页添加标签名称,选择标签颜色,单击「确定」完成标签的新增。

图 16 新增标签
图 16 新增标签

4. 修改标签

  1. 「标注详情页」标签组下选择需要修改的标签,鼠标悬浮在标签上,选择「修改」按钮,修改标签名称,选择标签颜色,单击「确定」完成标签的修改
  2. 标签修改后,对该数据集下所有文件生效
图 17 修改标签
图 17 修改标签

注意:标签组内的标签不允许修改,只有数据集内新增的标签可以修改

5. 删除标签

「标注详情页」找到需要删除的标签,鼠标悬浮在标签上,选择「删除」即可。

图 18 删除标签
图 18 删除标签

注意:标签组内的标签和被引用的标签不允许删除