OCR技术简单介绍以及常用方法对比

什么是OCR？
OCR的分类
OCR流程
识别方法
- 具体实现方法：

什么是OCR？

OCR英文全称是Optical Character Recognition，中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。现在这技术已经比较成熟。实际应用：比如一个手机APP就能帮忙扫描名片、身份证，并识别出里面的信息；汽车进入停车场、收费站都不需要人工登记了，都是用车牌识别技术；我们看书时看到不懂的题，拿个手机一扫，APP就能在网上帮你找到这题的答案。太多太多的应用了，OCR的应用在当今时代确实是百花齐放啊。

OCR的分类

如果要给OCR进行分类，我觉得可以分为两类：手写体识别和印刷体识别。这两个可以认为是OCR领域两个大主题了，当然印刷体识别较手写体识别要简单得多，我们也能从直观上理解，印刷体大多都是规则的字体，因为这些字体都是计算机自己生成再通过打印技术印刷到纸上。在印刷体的识别上有其独特的干扰：在印刷过程中字体很可能变得断裂或者墨水粘连，使得OCR识别异常困难。当然这些都可以通过一些图像处理的技术帮他尽可能的还原，进而提高识别率。总的来说，单纯的印刷体识别在业界已经能做到很不错了，但说100%识别是肯定不可能的，但是说识别得不错那是没毛病。
印刷体已经识别得不错了，那么手写体呢？手写体识别一直是OCR界一直想攻克的难关，但是时至今天，感觉这个难关还没攻破，还有很多学者和公司在研究。为什么手写体识别这么难识别？因为人类手写的字往往带有个人特色，每个人写字的风格基本不一样，虽然人类可以读懂你写的文字，但是机器缺很难。那为什么机器能读懂印刷体？因为印刷体是机器造出来的啊，那机器当然能读懂自己造的字体啦哈哈~其实上面也提到了，印刷体一般都比较规则，字体都基本就那几十种，机器学习这几十种字体并不是一件难事，但是手写体，每个人都有一种字体的话，那机器该学习多少字体啊？这就是难度所在。

OCR流程

现在就来整理一下常见的OCR流程，为了方便描述，那就举文档中的字符识别为例子来展开说明吧。
OCR技术简单介绍以及常用方法对比 - 图1
假如输入系统的图像是一页文本，那么识别时的第一件事情是判断页面上的文本朝向，因为我们得到的这页文档往往都不是很完美的，很可能带有倾斜或者污渍，那么我们要做的第一件事就是进行图像预处理，做角度矫正和去噪。然后我们要对文档版面进行分析，进每一行进行行分割，把每一行的文字切割下来，最后再对每一行文本进行列分割，切割出每个字符，将该字符送入训练好的OCR识别模型进行字符识别，得到结果。但是模型识别结果往往是不太准确的，我们需要对其进行识别结果的矫正和优化，比如我们可以设计一个语法检测器，去检测字符的组合逻辑是否合理。比如，考虑单词Because，我们设计的识别模型把它识别为8ecause，那么我们就可以用语法检测器去纠正这种拼写错误，并用B代替8并完成识别矫正。这样子，整个OCR流程就走完了。从大的模块总结而言，一套OCR流程可以分为：
OCR技术简单介绍以及常用方法对比 - 图2
从上面的流程图可以看出，要做字符识别并不是单纯一个OCR模块就能实现的（如果单纯的OCR模块，识别率相当低），都要各个模块的组合来保证较高的识别率。

识别方法

常见识别方法有：

使用tesseract引擎进行光学字符识别
大公司做好的现成API
传统方法做字符的特征提取，输入分类器，得出OCR模型
暴力的字符模板匹配法
大杀器：基于深度学习下的CNN字符识别
具体实现方法：
附录：
https://gitee.com/paddlepaddle/PaddleOCR?utm_source=alading&utm_campaign=repo#%E6%96%87%E6%A1%A3%E6%95%99%E7%A8%8B

什么是OCR？

OCR的分类

OCR流程

识别方法

具体实现方法：