创建训练任务

1. 数据准备:在创建训练任务之前,请确保已经准备好标注完成的数据集、可用的镜像和相应的算法。

还没准备好?请看这里:

创建数据集
上传镜像
上传算法

2. 点击左上角「创建训练任务」按钮,在弹出「添加任务」窗口中写入信息。

图 1 创建训练任务
图 1 创建训练任务
  1. 输入任务名称,支持字母、数字、汉字、英文横杠和下划线。
  2. 添加任务描述(可选)。
  3. 选择算法的类型,可选「我的算法」或「预置算法」。
  4. 选择算法,此下拉框的内容会根据选用的算法类型变化。
  5. 选择镜像,支持 TensorFlow、OneFlow、PyTorch 等,镜像可在 “镜像管理” 页面查看。
  6. 加载模型,开启表示训练模型可以作为本次训练的入参进行再次训练。
  7. 选择训练使用的数据集,并选择数据集的版本。
  8. 验证数据集,开启表示可以通过验证数据集校验训练出模型的推理精度。
  9. 勾选「使用 OFRecord 」勾选框即表示用户将使用 OneFlow 支持的原生数据集格式。如不勾选,用户将使用原始数据集格式,或者可以自行编写 OFRecord 转换脚本,将原始数据集转换成 OFRecord 数据集格式。
  10. 输入运行命令,如: python mnist.py。
  11. 选择运行参数模式,目前支持 key-value 和 arguments 两种方式输入运行参数,两种模式示例如下,可以随时转换:
图 2 key-value
图 2 key-value
图 3 arguments
图 3 arguments

12.选择节点数,节点数大于等于2,表示本次训练将通过分布式模式运行:

图 4 节点数
图 4 节点数
note
  1. 请确保代码中包含“ num_nodes ”参数和“ node_ips ”参数用于接收分布式相关参数!

13.选择节点类型,有 CPU 和 GPU 供选择。若选择GPU,后台将自动获取并填充参数 gpu_num_per_node:

图 5 GPU
图 5 GPU
  1. 节点类型对应不同的节点规格(规格类型可由管理员在控制台进行增删改),若有多个节点,则为每个节点的规格:
图 6 节点规格
图 6 节点规格
  1. 延迟启停,启动表示用户可以进行如下设置:
    1. 延迟启动:设置启动训练任务的延迟时间(以小时为单位)。
    2. 训练时长上限:设置训练任务运行最大时长(以小时为单位)。
note
  1. 标记红色 * 为必填项。
  2. 在选择节点类型的时候要视算法而定。
  3. 运行命令目前只支持Python。

3.点击「开始训练」,将跳转至训练任务列表页面,其中将展示任务提交成功的提示和创建的任务。

图 7 创建任务成功
图 7 创建任务成功
Last updated on