数据集脚本工具

开发数据集上传脚本的目的是帮助开发人员快速上传图片 / 导入本地已有数据集 / 导入预置数据集功能。

环境准备

运行脚本需要安装 jdk 1.8 版本

工具下载

1.上传文件

为了提升大数据集(2000+ 文件)上传效率,我们增加了脚本上传文件功能,开发人员只需启动命令行一键操作,就能实现超大数据集文件的快速上传,极大地释放了工作效率。

前置条件

  • 上传文件仅支持图片和文本的上传
  • 创建好数据集根据数据集 ID 进行上传
tip

Windows 下运行 run.bat,Linux/macOS 下运行 run.sh

运行脚本

图 1 运行脚本
图 1 运行脚本

上传文件

根据提示输入待上传文件的数据集 ID 和本地上传文件的绝对路径:

图 2 上传文件
图 2 上传文件

上传文件成功:

图 3 上传文件成功
图 3 上传文件成功

查看上传结果

数据集详情中查看已上传的图片:

图 4 视觉数据集详情
图 4 视觉数据集详情

数据集详情中查看已上传的文本:

图 5 文本数据集详情
图 5 文本数据集详情

2. 导入数据集

为了实现其他平台已标注完成的数据集在「一站式开发平台」上进行开发,我们增加了数据集导入的功能,实现对数据集的全流程功能操作。

tip
  1. 导入数据集目前支持图片和文本类型
  2. 图片格式支持 jpg/png/bmp/jpeg,不大于 5M,文本格式支持 txt,位于 origin 目录下,不支持目录嵌套
  3. 本地数据集需要包括源文件(origin 目录)、标注文件(annotation 目录)和标签文件三部分
  4. 标注文件为 json 格式,位于 annotation 目录下,必须和文件同名(如果不存在标注,可不上传),不支持目录嵌套
  5. 标签文件为 json 格式,命名要求为 label_{name}.json,其中 name 为标签组名称,不能与系统已有标签组重名
  6. 导入的文件名称不能重复

模板下载

目录说明

本地数据集需要包括源文件(origin 目录)、标注文件(annotation 目录)和标签文件三部分:

图 6 导入数据集目录说明
图 6 导入数据集目录说明

标签格式

name: 名称
color: 颜色(16进制编码)

详细示例:

[{
"name": "行人",
"color": "#ffbb96"
},
{
"name": "自行车",
"color": "#fcffe6"
}]

点击下载 标签组模板文件

标注文件

1. 图片分类:

name: 对应标签名称
score:置信分数(0-1)

详细示例:

[{"name":"wheaten_terrier","score":1}]

2. 目标检测:

name: 对应标签名称
bbox: 标注位置
score:置信分数(0-1)

详细示例:

[{
"name": "行人",
"bbox": [321.6755762696266, 171.32076993584633, 185.67924201488495, 145.02639323472977],
"score": 0.6922634840011597
},
{
"name": "自行车",
"bbox": [40.88740050792694, 22.707078605890274, 451.21362805366516, 326.0102793574333],
"score": 0.6069411635398865
}]

3. 文本分类:

name: 对应标签名称
score:置信分数(0-1)

详细示例:

[{"name":"negtive movie review","score":1}]

导入视觉/文本数据集

创建导入数据集(根据需求选取图片,文本类别),点击「导入数据集」:

图 7 导入数据集
图 7 导入数据集
图 8 创建数据集(根据需求选取图片,文本类别)
图 8 创建数据集(根据需求选取图片,文本类别)

运行脚本

图 9 运行脚本
图 9 运行脚本

按照提示输入待导入数据集的 ID 和本地数据集的绝对路径,导入数据集数量较大时请耐心等待:

图 10 导入数据集
图 10 导入数据集

导入数据集成功:

图 11 导入数据集成功
图 11 导入数据集成功

查看导入的数据集

进入数据集列表找到已导入的数据集,点击 「查看标注」:

图 12 数据集列表
图 12 数据集列表

进入已导入的数据集详情页查看:

图 13 目标分类详情
图 13 目标分类详情
图 14 文本分类详情
图 14 文本分类详情

导入自定义数据集

创建导入自定义数据集,点击「导入数据集」:

图 15 导入数据集
图 15 导入数据集
图 16 导入数据集
图 16 导入数据集

运行脚本

图 17 运行脚本
图 17 运行脚本

按照提示输入待导入自定义数据集的 ID 和本地数据集的绝对路径,导入自定义数据集数量较大时请耐心等待:

图 18 导入数据集
图 18 导入数据集

导入自定义数据集成功:

图 19 导入数据集成功
图 19 导入数据集成功

查看导入的数据集

进入数据集列表找到已导入的自定义数据集,点击「查看文件」:

图 20 查看文件
图 20 查看文件

3 导入平台预置数据集

平台预置了多种公共数据集, 支持图片/视频/文本等多种数据标注格式. 方便用户直观的查看数据处理后的效果.也为后续训练功能提供公共数据集数据。

预置数据集

名称数据类型标注类型说明
Caltech-256图片图片分类Caltech-256 是一个图像物体识别数据集,包含 29780 张图片,256个物体类别。
COCO2017-train图片目标检测MS COCO 数据集训练集。 COCO 全称是 Common Objects in Context,是微软团队提供的一个大型的、丰富的目标检测、分割和识别的数据集。
COCO2017-val图片目标检测MS COCO 数据集验证集。
Data-Augment图片图片分类基于部分 O-HAZE 数据集和网络图片组成的内置数据增强算法的数据集(仅作功能示例)。
Object-Tracking视频目标跟踪基于「一站式开发平台」内置目标跟踪算法的数据集(仅作功能示例)。
NLP_IMDB文本文本分类基于 IMDB 影评的文本数据集,分为 positive/negative。

下载平台 预置数据集

目录说明

预置数据集需要包括源文件(origin 目录)、标注文件(annotation 目录)、(versionFile 版本目录)和创建预置数据集 sql 文件以及 json 标签文件五部分。

图 21 导入预置数据集目录说明
图 21 导入预置数据集目录说明

运行导入数据集脚本

开始运行:

图 22 运行脚本
图 22 运行脚本

按照提示输入待导入预置数据集的 ID 和已下载好的本地预置数据集的绝对路径,导入预置数据集数量较大时请耐心等待:

图 23 导入预置数据集
图 23 导入预置数据集

导入预置数据集成功:

图 24 导入预置数据集成功
图 24 导入预置数据集成功

查看导入的预置数据集

进入「数据集管理」找到「预置数据集」查看导入的数据:

图 25 预置数据集列表
图 25 预置数据集列表

进入已导入的「预置数据集」详情页查看:

图 26 预置数据集详情
图 26 预置数据集详情
Last updated on