卢迪 袁璇

卢迪, 袁璇. LGDNet:结合局部和全局特征的表格检测网络[J]. 电子与信息学报, 2024, 46(12): 4553-4562. doi: 10.11999/JEIT240428
LU Di, YUAN Xuan. LGDNet: Table Detection Network Combining Local and Global Features[J]. Journal of Electronics & Information Technology, 2024, 46(12): 4553-4562. doi: 10.11999/JEIT240428
doi: 10.11999/JEIT240428




    卢迪 ludizeng@hrbust.edu.cn

  • 中图分类号: TN911.73

LGDNet: Table Detection Network Combining Local and Global Features

  • 摘要: 在大数据时代,表格广泛存在于各类文档图像中,进行表格检测对于表格信息再利用具有重要意义。针对现有的基于卷积神经网络的表格检测算法存在感受野受限、依赖于预设的候选区域以及表格边界定位不准确等问题,该文提出一种基于 DINO模型的表格检测网络。首先,设计一种图像预处理方法,旨在增强表格的角点和线特征,以更好地区分表格与文本等其他文档元素。其次,设计一种主干网络SwTNet-50,通过在ResNet中引入Swin Transformer Blocks (STB),有效地进行局部-全局特征信息的提取,提高模型的特征提取能力以及对表格边界的检测准确性。最后,为了弥补DINO模型在1对1匹配中编码器特征学习不足问题,采用协同混合匹配训练策略,提高编码器的特征学习能力,提升模型检测精度。与多种基于深度学习的表格检测方法进行对比,该文模型在表格检测数据集TNCR上优于对比算法,在IoU阈值为0.5, 0.75和0.9时F1-Score分别达到98.2%, 97.4%和93.3%。在IIIT-AR-13K数据集上,IoU阈值为0.5时F1-Score为98.6%。
  • 图  1  DINO模型网络结构

    图  2  LGDNet结构

    图  3  文档图像预处理过程

    图  4  SwTNet-50主干网络

    图  5  一对多匹配辅助分支

    图  6  TNCR数据集中5种类型的表格图像

    图  7  Full lined类型表格检测结果

    图  11  Partial lined and Merged cells类型表格检测结果

    图  9  Partial lined类型表格检测结果

    图  8  Merged cells类型表格检测结果

    图  10  No lines类型表格检测结果

    表  1  辅助头信息

    辅助头i 匹配方式Ai
    {pos}, {neg}生成规则 Pi生成规则 $B_i^{\left\{ {{\text{pos}}} \right\}}$生成规则
    Faster R-CNN {pos}:IoU(proposal, gt)>0.5
    {neg}:IoU(proposal, gt)<0.5
    {pos}:gt labels, offset(proposal, gt)
    {neg}:gt labels
    positive proposals
    $\left( {{x_1}, {y_1}, {x_2}, {y_2}} \right)$
    ATSS {pos}:IoU(anchor, gt)>(mean+std)
    {neg}:IoU(anchor, gt)<(mean+std)
    {pos}:gt labels, offset(anchor, gt), centerness
    {neg}:gt labels
    positive anchors
    $\left( {{x_1}, {y_1}, {x_2}, {y_2}} \right)$
    表  2  TNCR, IIIT-AR-13K数据集上的对比实验结果(%)

    数据集 网络模型 F1-Score
    IoU@0.5 IoU@0.75 IoU@0.9
    TNCR Cascade Mask R-CNN[12] 93.1 92.1 86.6
    DiffusionDet[20] 95.5 93.9 88.5
    Deformable DETR[17] 94.5 93.7 89.3
    DINO[21] 94.6 91.4 90.1
    Sparse R-CNN[19] 95.2 94.8 90.9
    本文 98.2 97.4 93.3
    IIIT-AR-13K Faster R-CNN[8] 93.7
    Mask R-CNN[25] 97.1
    DINO[21] 97.4
    本文 98.6
    表  3  主干网络对比实验结果(%)

    Swin Transformer94.691.490.1
    表  4  消融实验结果(%)

