Skip to content

README_Chineses

Zhehua-Hu edited this page Mar 2, 2017 · 24 revisions

Enchain: 数据集全周期管理工具

数据集全周期

基于深度学习应用的数据集的全生命周期通常包括:

  • 关于数据集需求,规模,投入等的讨论或规划
  • 采集设备集成与测试
  • 相关人员培训
  • 数据集产生与管理流程如下

第一阶段:图像预处理

  • 图像采集

    可以直接由采集设备存储为图像,也可以使用Enchain将视频变为图像序列

  • 图像挑选

    通过某些条件,选择适合标注的图像

  • 任务分配

    通常方法是培训标注人员进行分配或众包,目前也有通过游戏或验证码参与者标注的例子

第二阶段:图像标注

常见的标注种类如下:

  • 使用矩形或椭圆标注

    常用于分类或检测任务,通常标注文件为xml,使用VOC格式

  • 使用多边型等异形边框标注,有些任务需要像素级标注

    常用于语义分割、定位测距等任务

目前Enchain中标注功能未开发,推荐使用如下软件:

建议使用统一的标注标准指导图像标注过程,包括并不限于以下:

  • 遵循的标注思想,常见的有VOC/KITTI
  • 标注种类及各类的定义,范围与反例

对于每位标注人员,在收到任务后并了解标注标准后,可相互交流以确认理解偏差在可接受范围内。

如果你第一次制作自己的数据集,请做好迭代标注标准的准备,因为需求或标准可能会变化。

第三阶段:数据集管理

  • 标注检查

    上一阶段每位标注人员标注的数据集将进行标注检查,由检查人员进行检查, 也可由受过训练的标注人员进行,但其不能检查自己的产出。 由一位检查人员进行称为double-check,也可由多位检查人员进行。

  • 数据集录入

    对标注的正确性与合理性进行检查后,就可以合并、入库。

  • 数据集测试

    使用新的数据集训练你的模型,检验效果。

对于深度学习应用,数据集常常需要不菲的人力物力进行维护,可能的工作包括:,

  • 数据集维护
  • 数据可视化与统计
  • 数据集合并与更新
  • 管理共享权限与分发

下文将结合Enchain讲解使用步骤

安装

Windows用户安装流程[三步]

  • Step1: 下载支持库

    • 登录github, 链接,
    • 选择"Clone or download"-> "Download ZIP"下载, 下载过程中可在页面右上角给一颗star
    • 将下载文件放在英文目录下解压
  • Step2: windows 系统添加环境变量

    • 在控制面板搜索 ”环境变量”
    • 选择 “编辑系统环境变量”
    • "高级" -> "环境变量 -> "系统变量"
    • "新建"->
      • 变量名:ENCHAINPATH
      • 变量值:支持库的路径(路径尾包含/Enchain)
  • Step3: 可执行文件下载, 直接运行。

Ubuntu用户安装流程

Enchain使用教程

Enchain开发者

Doxygen File

Clone this wiki locally