先水平分组; 再统计纵向贯穿的线, 找出贯穿最多的线; 再根据贯穿线再次分组
    相当于先把所有组投影到一条条垂直线上, 看这些垂直线哪一条的空白最多, 就取这条垂直线作为分栏的分界线
    根据贯穿线再次分组, 在这条分界线上有投影的就不分栏, 没有投影的就分为左右两栏
    不支持叵这种包围结构(会按最外围的边界聚集成一个大的组), 只支持亖或非这种结构
    只支持不分栏和左右两栏, 不支持三栏

    水平分组时, 由于每个文档的的行间距不一样
    需要先统计垂直距离, 取出现次数最多的垂直距离+1, 作为垂直分组的依据

    image.png image.png
    image.png image.png

    对于这种误判,分栏分界线实际上只分开了第一行,其他贯穿行的右侧并没有内容
    修改分栏分界线的判断条件,至少实际分开了10行才算
    image.png