Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

 Zhang, S.-X., Zhu, X., Hou, J.-B., Liu, C., Yang, C., Wang, H., & Yin, X.-C. (CVPR 2020). Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection. http://arxiv.org/abs/2003.07493

  论文下载
  代码链接

Abstract

文档识别和分析专委会分析
 是一种新的基于组件连接的文本检测技术,先进行Char 的文本框预测,再使用GCN进行文本组件连接。

 将每个文本实例表示成许多个矩形的文本组件,然后把每个文本组件视为一个节点,通过该论文提出的局部子图(Local Graph将同一张图中的文本组件节点划分成多个子图,每个子图包含一个中心节点和其二阶以内的邻居节点,最后通过一个图卷积神经网络模型进行学习和推理中心节点与其邻居节点的关系。

GCN

image.png

如图挑选一个node作为中心与周围的node去连接组成一个local graph,

Proposed Method

image.png

 本文方法主要包含五个部分:共享卷积层(Shared Convolutions)、文本组件预测网络(Text Component Prediction)、局部子图(Local Graphs)、关系推理模型(Relational Reasoning)和组件的归并过程(Link Merging. 居然流程如上图所示。

Text Component Prediction

image.png
  每个文本实例表示为D, D=(x,y,h,w,cosθ, sinθ). h 是h1和h2的和,w可由h的线性关系算出来:
image.png
  在论文中 DRRG(2020CVPRoral) - 图5; DRRG(2020CVPRoral) - 图6

Detection Loss

image.png

Local Graph Generation

  Zhongdao Wang, Liang Zheng, Yali Li, and Shengjin Wang. Linkage based face clustering via graph convolution network. In CVPR, pages 1117–1125, 2019

  考虑the pivot和node 之间的Euclidean similarity:
image.png
  DRRG(2020CVPRoral) - 图9 is an L2 distance between p and $v{i}$, $H{m}$ 是image的高度, $W_{m}$ 是image的宽度。

Deep Relational Reasoning

  其中,关系推理网络的输入包括节点特征(X)和邻接矩阵(A),其具体的生成和计算过程如下图所示。
image.png

Experience