【机器学习】OCR实现_滑动窗口

浏览 195 扫码分享 2022-10-22 18:06:29

简化问题
流水线第一步
流水线第二步
流水线第三步

滑动窗口分类器

简化问题
行人识别到文字识别

行人问题简单地方在于行人的长宽比基本固定

收集一定数量固定长宽比82*36的正样本和负样本
输入到网络或算法中，对y进行分类

在测试集中，使用一个固定比例和大小的图框扫描图片上的每一个位置，输入到分类器中进行判决
增大图框大小（保持比例），再次扫描
回到文字识别

流水线第一步
先实现文本检测，确定图片中有文字存在，及其位置

检测出文字位置，高亮
通过放大算子放大文字区域
舍弃形状怪异区域，保留正常比例的文字区域，并用框框选

流水线第二步

字符分割

搜集存在分割处的图片作为正样本，不存在分割处的图片为负样本
输入到网络或算法中，实现分类

再次逐渐移动位置扫描图片，输入到分类器中
得到分割线的位置

流水线第三步
从分割位置提取图片然后字符识别

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录