3.竞品研究(2)

浏览 201 扫码分享 2023-11-22 12:39:24

AI需求拆解
百度云AI
腾讯云AI
纸上世界
总结

在2.竞品研究(1) 这篇文章，我们提到了在用户不同、服务不同象限上的AI服务是很重要的一个研究领域，能够帮助我们理解目前业界能够商业化的最佳实践。

AI需求拆解

从技术角度来看，指尖查词的识别步骤拆解如下：
3.竞品研究(2) - 图1

涉及的AI技术分为四个，涉及人体目标检测、OCR、NLP等技术：

指尖检测
文字检测
文字识别
语义纠错

我选择研究以下三个AI服务：

百度云AI
- 百度AI是国内领先的，拥有指尖识别、文字OCR识别两种能力，同时他们针对教育场景有优化；
- 我在百度pp飞桨平台学习了他们《动手OCR》的课程，对理解他们的OCR能力有非常重要的帮助；
腾讯云AI
- 选择腾讯云AI是因为腾讯联合第三方公司推出了一个叫爱拉智能台灯的产品，用的就是腾讯自研的OCR能力，准确率和速度都还不错；
纸上世界
- 应该是国内首个针对教育OCR场景的AI能力提供商，赋能了超过百万台学习硬件设备，从学习平板到网课机，从儿童早教机到作业台灯。

百度云AI

1.指尖检测

指尖检测的技术文档，对其能力描述如下：

对于输入的一张图片（可正常解码，且长宽比适宜），检测图片中的手部，定位食指指尖、及4个辅助关键点的坐标位置，模型针对儿童学习机点读场景进行专项调优，可用于点读搜题、自动跟读等应用。

下面这张图来自其指尖检测官网的功能演示模块：

左边是指尖识别之后结果，右边是接口返回的信息, 关键信息包括：

检测到的人手数目
食指指尖
x坐标
y坐标
置信度分数

从上面可以看出，百度针对教育场景做了专门的优化，采用的例子都是教育场景的。

2.文字OCR

下面这张图来自其通用OCR高精读含位置版本的功能演示模块：

从其接口文档可以看到，返回的参数，包括：

图像方向
识别结果数
识别结果字符串
位置数组（ left、 top、width、height）
识别结果中每一行的置信度值
…..

3.客户实践案例

百度AI开放平台有个比较好的地方，就是有大量的案例库，可以学习。比如OCR这块，我们找到最接近的案例就是读书郎点读的案例。

读书郎在交互上是让学生拍照后框选出生字区域，相比于指尖查词，交互体验还是有待提高。

读书郎学生平板借助百度通用文字识别能力，实现了拍照识字功能，学生只需用读书郎对纸质书本进行拍照，并框取图片上的生字区域进行快速识别，点击对应的的汉字即可查看相关信息。

腾讯云AI

从下面这张图，我们可以看到腾讯OCR在印刷体识别关键指标的表现，以及他们在算法层面的创新：

《冀永楠：OCR的应用锦集及背后技术》2018

优点：
- 采用了端到端的深度学习模型包括Attention机制，有效提升准确率。官网最新提到的准确率在95%；
- 采用了后处理机制，根据语义和环境来把识别出来的错误进行纠正；
缺点：
- 从右上角的分类来看，他们还没有对教育场景做专门的优化。相比之下，百度有对教育场景做优化；

纸上世界

这家公司也是一家AI技术方案服务提供商，提供一套完整的手指点读技术的智能解决方案，相对来说场景更细分。其官网列出了已经服务的公司，基本都是教育硬件公司。

包括：

儿童早教机
- 牛听听
学习平板
- 优学派
- 希沃
- 赶考状元
- 快易典
- 萌状元理解手指的动作，终端识别各种手势，实时跟踪手指轨迹。

他们的技术特色在于以下两点：

动作理解
- 理解手指的动作，终端识别各种手势，实时跟踪手指轨迹。（基于手指轨迹来区分意图，这个是非常独特的创新，我好像只发现这一家公司有）
手指定位
- 在阅读时可高精度的定位手指位置（正确率95%，精确到3pixel），并且兼容各种不同背景、光线和角度的变化。（每个学生家里的学习环境不一样）

总结

通过对这几家AI公司服务的了解，我们基本对OCR技术有了一个比较完整的认知。以下是可以学习的地方：

明确指尖查词各个步骤的技术要点；
指尖识别准确率在95%，OCR识别准确率基本在95%+，深度学习模型已经是主流；
可以用NLP技术来做后处理，提高识别准确率；
可以做到基于手指运动轨迹来区分意图；
各种图像的不同背景、光线和角度是个挑战；

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录