在2.竞品研究(1) 这篇文章,我们提到了在用户不同、服务不同象限上的AI服务是很重要的一个研究领域,能够帮助我们理解目前业界能够商业化的最佳实践。
AI需求拆解
从技术角度来看,指尖查词的识别步骤拆解如下:
涉及的AI技术分为四个,涉及人体目标检测、OCR、NLP等技术:
- 指尖检测
- 文字检测
- 文字识别
- 语义纠错
我选择研究以下三个AI服务:
- 百度云AI
- 百度AI是国内领先的,拥有指尖识别、文字OCR识别两种能力,同时他们针对教育场景有优化;
- 我在百度pp飞桨平台学习了他们《动手OCR》的课程,对理解他们的OCR能力有非常重要的帮助;
- 腾讯云AI
- 选择腾讯云AI是因为腾讯联合第三方公司推出了一个叫爱拉智能台灯的产品,用的就是腾讯自研的OCR能力,准确率和速度都还不错;
- 纸上世界
- 应该是国内首个针对教育OCR场景的AI能力提供商,赋能了超过百万台学习硬件设备,从学习平板到网课机,从儿童早教机到作业台灯。
百度云AI
1.指尖检测
指尖检测的技术文档,对其能力描述如下:
对于输入的一张图片(可正常解码,且长宽比适宜),检测图片中的手部,定位食指指尖、及4个辅助关键点的坐标位置,模型针对儿童学习机点读场景进行专项调优,可用于点读搜题、自动跟读等应用。
下面这张图来自其指尖检测官网的功能演示模块:
左边是指尖识别之后结果,右边是接口返回的信息, 关键信息包括:
- 检测到的人手数目
- 食指指尖
- x坐标
- y坐标
- 置信度分数
从上面可以看出,百度针对教育场景做了专门的优化,采用的例子都是教育场景的。
2.文字OCR
下面这张图来自其通用OCR高精读含位置版本的功能演示模块:
从其接口文档可以看到,返回的参数,包括:
- 图像方向
- 识别结果数
- 识别结果字符串
- 位置数组( left、 top、width、height)
- 识别结果中每一行的置信度值
- …..
3.客户实践案例
百度AI开放平台有个比较好的地方,就是有大量的案例库,可以学习。比如OCR这块,我们找到最接近的案例就是读书郎点读的案例。
读书郎在交互上是让学生拍照后框选出生字区域,相比于指尖查词,交互体验还是有待提高。
读书郎学生平板借助百度通用文字识别能力,实现了拍照识字功能,学生只需用读书郎对纸质书本进行拍照,并框取图片上的生字区域进行快速识别,点击对应的的汉字即可查看相关信息。
腾讯云AI
从下面这张图,我们可以看到腾讯OCR在印刷体识别关键指标的表现,以及他们在算法层面的创新:

《冀永楠:OCR的应用锦集及背后技术》2018
- 优点:
- 采用了端到端的深度学习模型包括Attention机制,有效提升准确率。官网最新提到的准确率在95%;
- 采用了后处理机制,根据语义和环境来把识别出来的错误进行纠正;
- 缺点:
- 从右上角的分类来看,他们还没有对教育场景做专门的优化。相比之下,百度有对教育场景做优化;
纸上世界
这家公司也是一家AI技术方案服务提供商,提供一套完整的手指点读技术的智能解决方案,相对来说场景更细分。其官网列出了已经服务的公司,基本都是教育硬件公司。
包括:
- 儿童早教机
- 牛听听
- 学习平板
- 优学派
- 希沃
- 赶考状元
- 快易典
- 萌状元理解手指的动作,终端识别各种手势,实时跟踪手指轨迹。
他们的技术特色在于以下两点:
- 动作理解
- 理解手指的动作,终端识别各种手势,实时跟踪手指轨迹。(基于手指轨迹来区分意图,这个是非常独特的创新,我好像只发现这一家公司有)
- 手指定位
- 在阅读时可高精度的定位手指位置(正确率95%,精确到3pixel),并且兼容各种不同背景、光线和角度的变化。(每个学生家里的学习环境不一样)
总结
通过对这几家AI公司服务的了解,我们基本对OCR技术有了一个比较完整的认知。以下是可以学习的地方:
- 明确指尖查词各个步骤的技术要点;
- 指尖识别准确率在95%,OCR识别准确率基本在95%+,深度学习模型已经是主流;
- 可以用NLP技术来做后处理,提高识别准确率;
- 可以做到基于手指运动轨迹来区分意图;
- 各种图像的不同背景、光线和角度是个挑战;
