常见使用问题

登录

问题1:前端启动报错:请求异常,无验证码

图 1.1 登录页面报错
图 1.1 登录页面报错
图 1.2 请求返回详情
图 1.2 请求返回详情

解决方法

  1. 检查nacos上admin.yaml服务是否启动成功,并查看后台admin服务日志是否有报错,根据日志信息,对应解决问题。

  2. 检查前端.env.production文件是否配置正确,参考示例:

    图 1.3 .env.production文件配置示例
    图 1.3 .env.production文件配置示例

数据管理

问题1:数据集上传图片点击无反应,请求返回报错

图 2.1 数据集上传图片报错
图 2.1 数据集上传图片报错

解决方法

  1. 检查前端配置文件.env.production中minio相关配置是否正确,参考上方<图1.3>
  2. 检查配置文件中,前后端公私网IP是否混用,要保证配置一致,不可公私网IP混用
  3. 检查minio中,文件路径是否赋予读写权限:
    图 2.2 minio文件路径
    图 2.2 minio文件路径

问题2:数据处理中,图片标注进度不动或至99%不动

图 2.3 数据集图片标注进度卡住
图 2.3 数据集图片标注进度卡住

解决方法

  1. 检查nacos上dubhe-data-task服务是否启动成功
  2. 检查是否由于nacos上dubhe-data-task服务端口冲突,导致task服务启动失败
  3. 检查是否由于nacos上dubhe-data-task服务application-prod.yaml文件配置错误,导致task服务启动失败
  4. 检查是否已添加kubeconfig文件,是否配置正确
note

添加kubeconfig文件方法:

将k8s集群master下$HOME/.kube/config文件,复制到dubhe-admin/src/main/resources/和dubhe-task/src/main/resources/下,重命名为kubeconfig

问题3:数据处理中,增强功能进度卡住

图 2.4 数据集增强功能进度卡住
图 2.4 数据集增强功能进度卡住

解决方法

  1. 检查nacos上dubhe-data-task服务是否启动成功
  2. 检查增强接口(/enhance)返回是否正常,增强算法是否已经正常启动
  3. 检查增强算法配置文件是否配置正确
  4. 图片数据量大,处理时间长,需要等待

问题4:数据增强中要怎么停止?

解决方法

  1. 数据增强中状态,前端页面无法进行其他操作。因特殊情况想强制停止,可以修改数据库该条数据为完成或未完成状态。停止其他进行中状态,也可如此操作。
    图 2.5 数据库数据集管理表
    图 2.5 数据库数据集管理表

问题5:数据增强页面中文乱码

图 2.6 数据增强页面中文乱码
图 2.6 数据增强页面中文乱码

解决方法

  1. 数据库的编码问题,检查mysql的数据库编码格式。

问题6:数据集列表页显示“自动标注完成”,查看详情并没有标注

图 2.7 数据集列表已自动标注完成
图 2.7 数据集列表已自动标注完成
图 2.8 查看详情未标注
图 2.8 查看详情未标注

解决方法

  1. 检查minio上是否已生成annotation文件,查看示例:
    图 2.9 minio上查看annotation文件示例
    图 2.9 minio上查看annotation文件示例
  2. 检查后端dubhe-admin服务里,配置文件application-prod.yml中minio配置是否正确,bucketName与minio中目录名是否一致,配置示例:
    图 2.10 dubhe-admin配置文件示例
    图 2.10 dubhe-admin配置文件示例

Notebook

问题1:notebook一直是启动中,后端pod为running状态

图 3.1 notebook启动中状态
图 3.1 notebook启动中状态

解决方法

  1. 检查nacos上dubhe-task服务有没有启动成功
  2. 检查本地C:\Windows\System32\drivers\etc中,hosts文件是否配置notebook四级域名:
    图 3.2 本地hosts文件配置
    图 3.2 本地hosts文件配置

问题2:notebook启动失败,后端notebook服务报错 ImagePullBackOff

图 3.3 notebook启动失败
图 3.3 notebook启动失败
图 3.4 查看后台notebook服务运行情况
图 3.4 查看后台notebook服务运行情况
图 3.5 查看notebook服务状态详情
图 3.5 查看notebook服务状态详情

解决方法

镜像拉取的问题:

  1. 镜像是否已 docker push 到自己的镜像仓库
  2. 检查harbor上是否有镜像,跟上传的镜像是否一致,示例:
    图 3.6 harbor上notebook镜像示例
    图 3.6 harbor上notebook镜像示例
  3. 检查后台配置文件以及hosts文件里,harbor的地址是否配置正确,地址是否一致:
    图 3.7 后台配置文件
    图 3.7 后台配置文件
    图 3.8 后台hosts文件
    图 3.8 后台hosts文件
    常见错误示例:
    图 3.9 harbor地址配置不一致
    图 3.9 harbor地址配置不一致

问题3:notebook域名配置相关

  1. notebook默认运行4小时之后重启后,域名又重新换一个新的了?
  2. notebook启动后,别人需要访问的话,他的本地是否也需要配一下hosts文件?
  3. 算法在线编辑会生成一个新的notebook,新notebook会生成新ip,需要把这个新的域名配置到本地hosts文件吗?每上传一个算法就得配一个域名?

解决方法

  1. 以上情况都需要重新修改配置域名
  2. 如果配置阿里云泛域名解析,则无需每次修改配置

算法管理

问题1:上传算法,报错“算法文件或路径不存在”

图 4.1 上传算法报错
图 4.1 上传算法报错

解决方法

  1. 检查nfs的挂载路径对不对,有没有挂载上
  2. 检查前后端上传的路径、环境地址是否一致
  3. 检查dubhe-admin中aplication-prod.yml配置文件的nfs和minio是否配置正确

问题2:算法管理中的训练数据集要怎么选择?

图 4.2 算法管理中创建训练任务
图 4.2 算法管理中创建训练任务

解决方法

  1. 数据集管理中,数据集标注完成后,点击发布后,训练数据集中才能使用。

问题3:fork预置算法时,一直提示算法文件或路径文件不存在,也无法下载预置算法文件

图 4.3 预置算法列表
图 4.3 预置算法列表

解决方法

  1. 目前平台里涉及的预置算法、预置镜像等预置模块,需要自己后台上传、配置后才能使用。

模型管理

问题1:在线推理服务,启用tensorflow框架类型时,启动时会报错找不到模型文件

查看代码,发现该文件名称为固定的常量:

图 5.1 相关报错信息
图 5.1 相关报错信息
图 5.2 相关代码片段
图 5.2 相关代码片段

解决方法

  1. 按照当前代码规定,需要修改模型文件为saved_model.pb,否则识别不到文件。参考示例:
    图 5.3 oneflow模型示例
    图 5.3 oneflow模型示例
    图 5.4 tensorflow模型示例
    图 5.4 tensorflow模型示例

训练任务

问题1:保存模型,报错“模型字符超过128个字符”

图 6.1 保存模型报错
图 6.1 保存模型报错
图 6.2 保存模型选择
图 6.2 保存模型选择

minio中保存模型的全路径:

图 6.3 minio中保存模型的全路径
图 6.3 minio中保存模型的全路径

点击保存模型时,用F12看下前端的返回值:

图 6.4 请求详情
图 6.4 请求详情

解决方法

  1. 正常保存路径如下:
    图 6.5 正常保存模型路径示例
    图 6.5 正常保存模型路径示例
    图 6.6 正常保存模型路径示例
    图 6.6 正常保存模型路径示例
  2. 上面请求返回值错误,Key的值是以 /train-manage/ 开头的,少了/
    图 6.7 请求返回值错误
    图 6.7 请求返回值错误
  3. 排查后为minio版本问题,导致minio返回结果有误,minio 1.13版本返回值是正确的,更换minio版本可解决改问题。
    图 6.8 minio版本
    图 6.8 minio版本

问题2:训练任务报错运行失败

图 6.9 运行失败
图 6.9 运行失败

解决方法

  1. 检查训练算法是否勾选日志输出与可视化日志,是否满足勾选条件:
    图 6.10 检查训练算法
    图 6.10 检查训练算法
  2. 检查训练数据集是否需要勾选使用OfRecord:
    图 6.11 检查训练数据集
    图 6.11 检查训练数据集
  3. 检查训练镜像是否可用:
    图 6.12 检查训练镜像
    图 6.12 检查训练镜像

问题3:创建训练任务时,选择2Core4GB规格报错

图 6.13 选择2Core4GB规格报错
图 6.13 选择2Core4GB规格报错
图 6.14 选择2Core4GB规格报错
图 6.14 选择2Core4GB规格报错

解决方法

  1. 在控制台->字典管理->cpu_specs 查看详情中,修改2Core4GB的字典值为{"cpuNum": 2000, "gpuNum": 0, "memNum": 4000, "workspaceRequest": "100Mi"}
    图 6.15 字典管理中 cpu_specs 查看详情
    图 6.15 字典管理中 cpu_specs 查看详情

问题4:创建训练任务失败,控制台没有错误日志输出,报内部错误

图 6.16 报内部错误
图 6.16 报内部错误

解决方法

  1. 查看后台error,info日志里的报错信息,根据日志信息对应解决问题。

云端Serving

问题1:dubhe_backend_serving-gateway服务启动不起来

服务器关闭重启后,dubhe_backend_serving-gateway的状态一直显示这样(health: starting):

图 7.1 dubhe_backend_serving-gateway状态
图 7.1 dubhe_backend_serving-gateway状态

查看上述日志后,显示这个原因:

图 7.2 查看原因
图 7.2 查看原因

解决方法

  1. 云端serving网关服务(dubhe-serving-gateway)需要在redis-client添加stream类型数据,可执行命令XADD serving_stream * 0 0

  2. 注意:检查当前执行该命令的redis数据库,与后台配置文件中是否一致!

    示例:

    dubhe-admin的application-prod.yml配置文件中:

    图 7.3 application-prod.yml配置文件
    图 7.3 application-prod.yml配置文件
    redis中默认0号库:
    图 7.4 redis为0号库示例
    图 7.4 redis为0号库示例
    标有[1] 为1号库:
    图 7.5 redis为1号库示例
    图 7.5 redis为1号库示例

问题2:云端serving,在线服务一直“部署中”

图 7.6 在线服务一直“部署中”
图 7.6 在线服务一直“部署中”

解决方法

  1. 检查下redis的路由信息有没有,示例:

    图 7.7 application-prod.yml配置文件
    图 7.7 application-prod.yml配置文件
  2. redis中没有以上路由信息,检查dubhe-serving-gateway服务有没启动成功

  3. 检查后台日志信息,日志路径:

    /Dubhe/dubhe-server/dubhe-serving-gateway/logs/dubhe-serving-prod/

    /Dubhe/dubhe-server/logs/dubhe-prod/

问题3:dubhe-serving-gateway启动报错

图 7.8 报错信息1
图 7.8 报错信息1
图 7.9 报错信息2
图 7.9 报错信息2

解决方法

先检查一下redis数据库中是否有gateway路由信息:

  1. 检查下redis的路由信息有没有,示例:

    图 7.10 application-prod.yml配置文件
    图 7.10 application-prod.yml配置文件
  2. 该用户没有此路由信息,问题排查思路:

  • 检查gateway服务是否在redis-client添加stream类型数据
  • 检查使用redis数据库的索引是否统一
  • 检查mysql、gateway服务、admin服务中配置是否统一
  • 如果之前有对配置文件进行修改,检查一下修改完后,java服务是否重新打包

问题4:框架名称和模型地址如何填写?

图 7.11 云端serving服务
图 7.11 云端serving服务

解决方法

  1. 此为创建serving服务时,后台自动填写生成提交到k8s的,不需要自己填写。

问题5:在线服务中,上传图片预测报错

图 7.12 在线服务预测
图 7.12 在线服务预测

解决方法

  1. 检查redis中是否有路由信息,根据路由信息,是否在本地及后端服务器hosts文件配置正确:

    图 7.13 redis中路由
    图 7.13 redis中路由
    图 7.14 后端服务器hosts
    图 7.14 后端服务器hosts
    图 7.15 本地服务器hosts
    图 7.15 本地服务器hosts
  2. 检查ngnix中是否配置端口号:

    图 7.16 ngnix中云端serving网关配置
    图 7.16 ngnix中云端serving网关配置
  3. 检查后台日志,根据信息对应排查问题


模型优化

问题1:模型优化的算法在哪上传?

图 8.1 创建模型优化任务
图 8.1 创建模型优化任务

解决方法

  1. 在算法管理中上传,算法用途需要选择或手动输入“模型优化”,创建模型优化时才能选择该算法。
    图 8.2 dubhe_backend_serving-gateway状态
    图 8.2 dubhe_backend_serving-gateway状态

模型炼知

问题1:可视化页面报错

图 9.1 可视化页面报错
图 9.1 可视化页面报错

解决方法

  1. 上传的度量文件josn中存在问题

其他

问题1:开源平台可以做商业使用吗?

答:我们的开源平台基于Apache 2.0协议,可以商用,但要遵守Apache 2.0协议的规则,详见https://www.apache.org/licenses/LICENSE-2.0

问题2:执行 docker build -t algorithm:v1 . # 命令,一直是0%

答:网络问题,受限于公网网速。

Last updated on