2.竞品研究(1) 这篇文章,我们提到了在用户不同、服务不同象限上的AI服务是很重要的一个研究领域,能够帮助我们理解目前业界能够商业化的最佳实践。

AI需求拆解

从技术角度来看,指尖查词的识别步骤拆解如下:
3.竞品研究(2) - 图1

涉及的AI技术分为四个,涉及人体目标检测、OCR、NLP等技术:

  • 指尖检测
  • 文字检测
  • 文字识别
  • 语义纠错

我选择研究以下三个AI服务:

  • 百度云AI
    • 百度AI是国内领先的,拥有指尖识别、文字OCR识别两种能力,同时他们针对教育场景有优化;
    • 我在百度pp飞桨平台学习了他们《动手OCR》的课程,对理解他们的OCR能力有非常重要的帮助;
  • 腾讯云AI
    • 选择腾讯云AI是因为腾讯联合第三方公司推出了一个叫爱拉智能台灯的产品,用的就是腾讯自研的OCR能力,准确率和速度都还不错;
  • 纸上世界
    • 应该是国内首个针对教育OCR场景的AI能力提供商,赋能了超过百万台学习硬件设备,从学习平板到网课机,从儿童早教机到作业台灯。

百度云AI

1.指尖检测

指尖检测的技术文档,对其能力描述如下:

对于输入的一张图片(可正常解码,且长宽比适宜),检测图片中的手部,定位食指指尖、及4个辅助关键点的坐标位置,模型针对儿童学习机点读场景进行专项调优,可用于点读搜题、自动跟读等应用

下面这张图来自其指尖检测官网的功能演示模块:
image.png
左边是指尖识别之后结果,右边是接口返回的信息, 关键信息包括:

  • 检测到的人手数目
  • 食指指尖
  • x坐标
  • y坐标
  • 置信度分数

从上面可以看出,百度针对教育场景做了专门的优化,采用的例子都是教育场景的。

2.文字OCR

下面这张图来自其通用OCR高精读含位置版本的功能演示模块:
image.png


从其接口文档可以看到,返回的参数,包括:

  • 图像方向
  • 识别结果数
  • 识别结果字符串
  • 位置数组( left、 top、width、height)
  • 识别结果中每一行的置信度值
  • …..

3.客户实践案例

百度AI开放平台有个比较好的地方,就是有大量的案例库,可以学习。比如OCR这块,我们找到最接近的案例就是读书郎点读的案例

读书郎在交互上是让学生拍照后框选出生字区域,相比于指尖查词,交互体验还是有待提高。

读书郎学生平板借助百度通用文字识别能力,实现了拍照识字功能,学生只需用读书郎对纸质书本进行拍照,并框取图片上的生字区域进行快速识别,点击对应的的汉字即可查看相关信息。

腾讯云AI

从下面这张图,我们可以看到腾讯OCR在印刷体识别关键指标的表现,以及他们在算法层面的创新:
image.png
image.png
《冀永楠:OCR的应用锦集及背后技术》2018

  • 优点:
    • 采用了端到端的深度学习模型包括Attention机制,有效提升准确率。官网最新提到的准确率在95%;
    • 采用了后处理机制,根据语义和环境来把识别出来的错误进行纠正;
  • 缺点:
    • 从右上角的分类来看,他们还没有对教育场景做专门的优化。相比之下,百度有对教育场景做优化;

纸上世界

这家公司也是一家AI技术方案服务提供商,提供一套完整的手指点读技术的智能解决方案,相对来说场景更细分。其官网列出了已经服务的公司,基本都是教育硬件公司。
image.png
包括:

  • 儿童早教机
    • 牛听听
  • 学习平板
    • 优学派
    • 希沃
    • 赶考状元
    • 快易典
    • 萌状元理解手指的动作,终端识别各种手势,实时跟踪手指轨迹。

他们的技术特色在于以下两点:

  • 动作理解
    • 理解手指的动作,终端识别各种手势,实时跟踪手指轨迹。(基于手指轨迹来区分意图,这个是非常独特的创新,我好像只发现这一家公司有)
  • 手指定位
    • 在阅读时可高精度的定位手指位置(正确率95%,精确到3pixel),并且兼容各种不同背景、光线和角度的变化。(每个学生家里的学习环境不一样)

总结

通过对这几家AI公司服务的了解,我们基本对OCR技术有了一个比较完整的认知。以下是可以学习的地方:

  • 明确指尖查词各个步骤的技术要点;
  • 指尖识别准确率在95%,OCR识别准确率基本在95%+,深度学习模型已经是主流;
  • 可以用NLP技术来做后处理,提高识别准确率;
  • 可以做到基于手指运动轨迹来区分意图;
  • 各种图像的不同背景、光线和角度是个挑战;