数据管理

机器学习开发过程中往往需要海量数据,而且在通常情况下,合适的训练数据集对于文件的质量和规格有着很高的要求。数据的质量一定程度决定了模型的好坏。

「一站式开发平台」数据管理模块集成了数据导入、数据筛选、数据标注、数据增强、版本管理等一站式数据服务。提供自动标注、数据增强等一系列数据加工方案,拥有高质量的数据标注处理算法,输出高品质的数据,支持下游 AI 数据训练获得更优的训练效果。

数据集业务架构

图 1 数据管理业务架构
图 1 数据管理业务架构

「一站式开发平台」目前支持图片、视频、文本、表格、音频、自定义、医疗影像(dcm)等数据类型,支持图像分类、目标检测、语义分割、目标跟踪、文本分类、中文分词、命名实体识别、器官分割、病灶检测等数据标注功能。内置数据增强功能(针对图片类型),可以针对已有数据集进行快速扩充,获得更好的数据多样性。

数据集标注类型

「一站式开发平台」数据集目前支持 视觉/文本医疗影像 两大类业务场景:

视觉文本

数据类型标注类型使用说明智能标注
图片图像分类对图片按标签进行分类部分支持
图片目标检测检测图片中多个目标部分支持
图片语义分割对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分暂不支持
视频目标跟踪对视频采样后进行跟踪视频序列中的目标位置、信息部分支持
文本文本分类对文本按标签进行分类,表格最后还是转化为文本部分支持
文本中文分词将连续的字序列按照一定的规范重新组合成词序列的过程,表格最后还是转化为文本暂不支持
文本命名实体识别识别文本中具有特定意义的实体,表格最后还是转化为文本暂不支持
音频音频分类对音频按标签进行分类暂不支持
音频语音识别指将人类语音中的词汇内容转换为计算机可读的输入暂不支持
自定义-导入自定义数据集-

目前智能标注只支持预置标签,用户自定义标签需要单独实现

医疗影像

标注类型数据类型业务场景使用说明智能标注
器官分割dcm对肺部 CT 影像实现自动器官分割功能自定义标注器官路径部分支持
病灶检测dcm检测肺部可疑结节信息用矩形框标注病灶信息暂不支持

智能标注介绍

智能标注即自动标注,通过该功能可以大幅度减少标注成本。「一站式平台」支持图片、视频、文本、医疗影像的自动标注。

  • 图片类:智能标注支持预定义标签(COCO、ImageNet)自动标注,分为图像分类和目标检测两类场景。图像分类支持单图像单标签,目标检测支持多图像多标签。通过智能标注,算法会自动判断图像标签的置信度,并经过由用户手动确认,从而保证数据集的总体标注质量。
  • 视频类:视频智能标注会跟踪视频序列中的每帧图像,根据图像上下文识别多个连续图像中相同的目标,并给出目标的 ID,标签分类和位置。用户也可以进行手动调整来优化标注质量。
  • 文本类:文本智能标注针对单文本单标签类型,实现根据文本内容自动分类。
  • 医疗影像类:目前支持肺部 CT 影像自动器官分割。

数据集状态说明

  • 未标注:数据集所有文件均未标注
  • 导入中:将本地待标注文件或者已标注数据集导入平台中,可以通过平台在线导入或使用数据集脚本工具
  • 标注中:数据集中部分文件处在「未完成」的状态,且当前未在执行「自动标注」任务
  • 自动标注中:当前数据集正在执行自动标注任务
  • 自动标注完成:数据集已完成「自动标注」任务,或「自动标注完成」后有部分文件未经「人工确认」
  • 标注完成:当前数据集所有文件都已通过「人工确认」环节
  • 未采样:「目标跟踪」场景下视频数据集创建完毕的初始状态
  • 采样中:「目标跟踪」场景下视频开始逐帧采样
  • 采样失败:视频采样失败
  • 目标跟踪中:对视频采样后生成的图片完成标注任务后,进行目标跟踪,生成目标 ID、目标位置
  • 目标跟踪失败:文件缺失或其他原因导致失败
  • 数据增强中:针对图片数据集进行文件扩充,基于原始图片转换生成新图片
Last updated on