• 滑动窗口分类器

    简化问题

  • 行人识别到文字识别

image.png

  • 行人问题简单地方在于行人的长宽比基本固定

image.png

  • 收集一定数量固定长宽比82*36的正样本和负样本
  • 输入到网络或算法中,对y进行分类

image.png

  • 在测试集中,使用一个固定比例和大小的图框扫描图片上的每一个位置,输入到分类器中进行判决
  • 增大图框大小(保持比例),再次扫描

  • 回到文字识别

    流水线第一步

  • 先实现文本检测,确定图片中有文字存在,及其位置

image.png

image.png

  • 检测出文字位置,高亮
  • 通过放大算子放大文字区域
  • 舍弃形状怪异区域,保留正常比例的文字区域,并用框框选

image.png

流水线第二步

  • 字符分割

image.png

  • 搜集存在分割处的图片作为正样本,不存在分割处的图片为负样本
  • 输入到网络或算法中,实现分类

image.png

  • 再次逐渐移动位置扫描图片,输入到分类器中
  • 得到分割线的位置

    流水线第三步

  • 从分割位置提取图片然后字符识别

image.png