高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

LGDNet:结合局部和全局特征的表格检测网络

卢迪 袁璇

孙光才, 王裕旗, 高昭昭, 江帆, 邢孟道, 保铮. 一种基于短合成孔径的双星干涉精确定位方法[J]. 电子与信息学报, 2020, 42(2): 472-479. doi: 10.11999/JEIT180940
引用本文: 卢迪, 袁璇. LGDNet:结合局部和全局特征的表格检测网络[J]. 电子与信息学报, 2024, 46(12): 4553-4562. doi: 10.11999/JEIT240428
Guangcai SUN, Yuqi WANG, Zhaozhao GAO, Fan JIANG, Mengdao XING, Zheng BAO. A Dual Satellite Interferometric Precise Localization Method Based on Short Synthetic Aperture[J]. Journal of Electronics & Information Technology, 2020, 42(2): 472-479. doi: 10.11999/JEIT180940
Citation: LU Di, YUAN Xuan. LGDNet: Table Detection Network Combining Local and Global Features[J]. Journal of Electronics & Information Technology, 2024, 46(12): 4553-4562. doi: 10.11999/JEIT240428

LGDNet:结合局部和全局特征的表格检测网络

doi: 10.11999/JEIT240428
详细信息
    作者简介:

    卢迪:女,教授,博士,研究方向为数据融合、图像处理等

    袁璇:女,硕士生,研究方向为图像处理、表格检测等

    通讯作者:

    卢迪 ludizeng@hrbust.edu.cn

  • 中图分类号: TN911.73

LGDNet: Table Detection Network Combining Local and Global Features

  • 摘要: 在大数据时代,表格广泛存在于各类文档图像中,进行表格检测对于表格信息再利用具有重要意义。针对现有的基于卷积神经网络的表格检测算法存在感受野受限、依赖于预设的候选区域以及表格边界定位不准确等问题,该文提出一种基于 DINO模型的表格检测网络。首先,设计一种图像预处理方法,旨在增强表格的角点和线特征,以更好地区分表格与文本等其他文档元素。其次,设计一种主干网络SwTNet-50,通过在ResNet中引入Swin Transformer Blocks (STB),有效地进行局部-全局特征信息的提取,提高模型的特征提取能力以及对表格边界的检测准确性。最后,为了弥补DINO模型在1对1匹配中编码器特征学习不足问题,采用协同混合匹配训练策略,提高编码器的特征学习能力,提升模型检测精度。与多种基于深度学习的表格检测方法进行对比,该文模型在表格检测数据集TNCR上优于对比算法,在IoU阈值为0.5, 0.75和0.9时F1-Score分别达到98.2%, 97.4%和93.3%。在IIIT-AR-13K数据集上,IoU阈值为0.5时F1-Score为98.6%。
  • 信号源的无源定位,具有作用距离远、隐蔽性高、生存能力强的特点,受到国内外广泛的研究[1-9]。传统的单站无源定位技术有到达方向(DOA)估计[10]、到达时间(TOA)估计[11]和TOA/DOA联合估计[12]。早期的DOA估计主要通过波束形成法来完成,受瑞利限的限制,后来发展的许多高分辨DOA估计算法,如Capon算法、Pisarenko算法和MUSIC算法等极大地提高了估计的分辨力和精度[13],但是DOA估计的分辨能力始终受到天线阵列孔径的限制,空间源数的估计也影响部分DOA估计算法的性能。TOA估计算法测量信号到达观测平台的时间估计信号源的距离,检测门限的设置是TOA的关键,不合适的检测门限会导致TOA估计误差的加大[14]。TOA/DOA联合估计通过测量到的角度和距离进行目标的定位,由于DOA分辨能力的固有限制,信号源距离越远,估计性能越差[15]

    为了减小测量误差,提高定位精度,国际上众多学者又发展了多个观测站测量的方法:到达时间差(TDOA)和到达频率差(FDOA)[16]。多站TDOA定位通过测量信号到达不同观测平台的时间差,进行双曲面定位[17],多站TDOA标准算法需要观测平台间时钟同步,时间不同步产生的误差,会导致定位的误差;TDOA/FDOA联合定位技术利用时差曲面和频差曲面进行定位[18],只需要两个平台。并且在星载应用中,卫星移动速度快,多普勒频差大,定位精度。目前已经提出了很多TDOA/FDOA联合定位的算法,要达到这些算法的定位精度,需要很高的时差频差估计精度[19]。目前宽带信号的FDOA估计的研究主要基于CAF[20]算法,CAF算法是一种双星联合估计算法,在信号带宽不满足窄带假设的情况下,估计效果变差。

    针对这些问题,本文提出一种基于短合成孔径的双星干涉的时频差精确估计方法,该方法结合合成孔径的思想,将SAR成像中的相干积累的原理引入到时差/频差估计中。在短孔径的条件下,接收信号的时差线性变化,通过最小二乘拟合提高时差估计精度;信号的多普勒频率表现为方位向的线性相位,通过多个脉冲相干积累,提高了频差的测量精度。对于窄带信号,两个卫星可以单独处理数据,单独处理得到的多普勒频率做差得到频差;对于宽带信号,可以通过双通道联合处理获得高的估计精度,有效解决CAF算法的不足。对于窄带信号,本文算法可以获得单个通道的多普勒频率,因此,本文算法也适用于窄带信号的多普勒频率估计,进行信号的到达角估计。本文的内容安排如下:第2节介绍了短合成孔径的双星信号模型,第3节介绍了时频差精确估计算法及定位方法,第4节分析了算法的性能并进行了算法的仿真,第5节通过STK仿真数据验证了算法的有效性。

    合成孔径双星的信号模型如图1所示,为了表述的方便,这里假设两个卫星的轨道高度相同,速度均为v。在短合成孔径中心时刻,两个卫星运动方向与信号源P所在方向的夹角分别为θ1, θ2。卫星的轨迹如图1中粗实线所示。利用斜视SAR中的斜距模型,点目标到卫星1的斜距历程可以写成,R1(ta)R0vcosθ1(tatpc1)+v2sin2θ12R0(tatpc1)2,其中tpc1=(XpRbcotθ1)/v为合成孔径中心时刻,R0=Rb1+cot2θ1为合成孔径中心时刻的斜距,Rb为信号源到航迹的最近距离。短合成孔径的条件为斜距历程中的2次项引起的相位变化小于π/4,即2πfccv2sin2θ12R0(tatpc1)2<π4,其中c为光速。由此可以得到短合成孔径的时间限制:tsyn<λR0v2sin2θ1

    图 1  双星信号模型

    由上述分析可以得到,短合成孔径时间的条件下,R1(ta)线性变化,假设信号源以Tr为脉冲重复间隔发送信号,每个脉冲的提前量为mTrvcosθ1/c。考虑到信号的多普勒频率fdc1=vcosθ1fc/c,每个脉冲的提前量可以表示为mTrfdc1/fc。实际测量的脉冲重复周期为Tr1,一般情况下Tr1Tr,接收的信号写成2维的形式,方位慢时间tm=mTr1,信号提前量为tmTrTr1fdcfc,由于脉冲重复周期估计误差带来的信号时延量为tm(1Tr/Tr1),定义α=(1TrTr1)TrfdcTr1fc为方位延时因子,延时量可以表示为αtm。假设发射信号为线性调频信号,卫星1接收的信号为

    s1(t,tm)=rect[tt1α1tm]exp(j2πfc(tt1α1tm)j2πfc1t)exp(jπγ(tt1α1tm)2)
    (1)

    其中,t1表示信号出现的初始时刻,fc1为估计的载频,j2πfc1t项表示去载频,γ为调频率。两个卫星同时开始录取数据,卫星2接收的的信号表达式为

    s2(t,tm)=rect[t(t1+Δt)α2tm]exp(j2πfc(t(t1+Δt)α2tm)j2πfc1t)exp(jπγ(t(t1+Δt)α2tm)2)
    (2)

    Δt表示两个卫星由于斜距不同产生的时间差。在较短的时间内,假设Δt保持不变。双星干涉要求系统是同步的,并且时钟是短期稳定的。双星系统间的不同步会导致Δt的变化,从而导致时差估计产生误差。在短合成孔径的时间内,通常小于1 s,时钟的稳定度优于8×1014,时间同步能达到0.15 ns[21]

    短合成孔径条件下,信号的包络移动量很小,所以可以忽略包络的影响,对于线性调频信号来说,那么其信号可以简化表示为

    s1(t,tm)=exp(j2πfc(tt1+α1tm)j2πfc1t)exp(jπγ(tt1+α1tm)2)
    (3)

    式(3)中第1项的相位是tm的线性函数,取两列信号相关后,可以得到其斜率α1, α1中包含信号的真实多普勒频率。对信号进行方位相关处理得到

    Cs(t0)=s1(t,tm+t0)s1(t,tm)=exp(j2πfcα1t0)exp(jπγα21(t02+2t0tm)+j2πγα1(tt1)t0)
    (4)

    为了利用全部数据并且兼顾减小计算量,可以取t0=M2Tr1, M为总的脉冲个数。相关处理后,式(4)的第1项为常数项,第2项为线性调频信号方位相关后的残余相位。将式(4)其重新写为

    Cs(t0)=exp(j2πfcα1t0)exp(jπfcα1fcγ(t02+2t0tm)fcfcα1+j2πγ(tt1)t0fcfcα1)
    (5)

    其中,fcα1为信号多普勒的估计值ˆfdc1,从式(5)可以看出对于窄带而言,可以得到γ(tt1)fcγ(t0+2tm)fc,并且信号多普勒频率和载频的比值fcα1/fc一般也很小,所以后一项的相位很小,可以忽略,对式(5)取相位,并通过求快时间和慢时间的平均值,于是得到

    ˆfdc112πt0Cs(t0)
    (6)

    双星处理的数据相减即可得到真实的频差。

    对于宽带线性调频信号,上述近似不再成立。主要是因为大的调频率γ导致式(5)的第2项相位不能忽略,考虑到宽带线性调频信号在频域的表现形式相同,可以通过两颗卫星的数据做干涉消除调频率γ的影响。通过驻定相位原理,将接收到的每个脉冲变换到频域,可以得到

    S1(f,tm)=rect[f(fcfc1)γ]exp(jπ(f(fcfc1))2γ)exp(j2πfc1(t1α1tm))exp(j2πf(t1α1tm))
    (7)

    可以看到,距离频域中信号的包络相同,第1项相位为线性调频项,此项在两个卫星接收的信号中相同,第2项为载频决定的相位,第3项为随距离频率变化的相位,这两项均为方位慢时间的线性函数。根据式(2),第2个卫星接收信号的频域形式会在t1的基础上额外引入一个固定时间Δt。由于线性调频项在不同卫星中相同,可以通过双星数据干涉去掉第1项相位,对两个卫星的数据进行干涉可以得到

    IF12(f,tm)=S1(f,tm)S2(f,tm)=exp(j2π(f+fc1)(α1α2)tm)exp(j2π(f+fc1)Δt)
    (8)

    式(8)中的第1项为频差有关的相位,为方位慢时间的1次函数,并随距离频率线性变化,第2项为两个卫星的时差带来的额外相位,在不同的方位时刻其为定值,可以通过方位相关去掉此项。取双星数据干涉后的两列信号进行方位相关可以得到

    CF12(f,t0)=I12(f,tm)I12(f,tm+t0)=exp(j2π(fc1+f)(α1α2)t0)
    (9)

    其中,t0为已知量,可以取t0=M2Tr1。可以看到两颗卫星的数据干涉后的结果只包含频差项,其随距离频率线性变化。取相位操作可以得到精确的频差。对式(9)取相位得到

    12πt0CF12(f,t0)=fc1+ffcTrTr1Δfdc
    (10)

    当载频的估计误差较小时,通过2维平均可以得到频差Δfdc12πt0CF12(f,t0)。算法流程如图2所示。

    图 2  频差测量算法流程

    时间差可以通过双星数据包络相关进行测量,两个矩形窗进行相关得到的结果是一个三角窗函数,通过搜索峰值,可以得到两个卫星的时差。两个卫星的数据进行包络相关处理,得到

    C(τ,tm)=Tr1t=0|S1(t,tm)||S2(t+τ,tm)|=Tr1t=0rect[tt1+α1tm]rect[tt1+α2tmtmTrΔfdcTr1fcΔt+τ]
    (11)

    当两个信号重合的时候,取得最大值,通过峰值搜索,即可得到峰值的位置

    τ=tmTrΔfdcTr1fc+Δt
    (12)

    峰值出现的位置包括两部分,一部分是两个卫星由于距离差产生的时差Δt,另一部分是两个卫星多普勒频率不同产生的每个脉冲的提前量的差。时差为

    Δt=τtmTrΔfdcTr1fc
    (13)

    时差是慢时间tm的线性函数,通过最小二乘法即可求得斜线的斜率,可以得到tm时刻的时差。

    时差定位技术通过时差参数,获得定位曲面,3星时差定位通过两个时差参数,获得两个定位曲面,与地球表面一起确定信号源的位置。频差定位技术与时差定位相同,通过频差曲面定位信号源的位置。双星时差频差定位通过两颗卫星确定一个时差曲面和一个频差曲面,与地球表面一起确定信号源的位置,与单纯的时差定位技术和频差定位技术相比,减少了对卫星个数的要求。

    图3所示,采用空间直角坐标系,两个卫星的位置为S1S2,坐标为(x1,y1,z1)T(x2,y2,z2)T,速度矢量为v1=(vx1,vy1,vz1)Tv2=(vx2,vy2,vz2)T,目标的位置为R=(x,y,z)T,两个卫星编队飞行,它们的速度相同v1v2vΔ__(vx,vy,vz)T。利用时差参数、频差参数可得方程组

    图 3  双星定位模型
    Δr=cΔt=(xx2)2+(yy2)2+(zz2)2(xx1)2+(yy1)2+(zz1)2Δvr=Δfdcλ=vx(xx2)+vy(yy2)+vz(zz2)(xx2)2+(yy2)2+(zz2)2vx(xx1)+vy(yy1)+vz(zz1)(xx1)2+(yy1)2+(zz1)2R2=x2+y2+z2}
    (14)

    其中,Δvr为两颗卫星相对于信号源的径向速度差,Δr为两颗卫星到信号源的距离差,R为地球半径。这是一个3元高次非线性的方程组,文献[22]将该方程组近似简化为解4次1元方程组,得到方程的解析解,解方程组后,可得得到4组解,去除虚根和模糊根即可得到信号源的位置。

    载频和脉冲重复周期的估计误差会引起多普勒频差估计的误差,从式(10)可以得到双星干涉得到的多普勒频差ˆfdcfc1fcTrTr1Δfdc,当载频和脉冲重复周期的估计有误差时,ˆfdc可以写为

    ˆfdc=(1fcfc1fc)(1Tr1TrTr1)Δfdc
    (15)

    通常Tr1Tr约为1~5个采样点,而地对空雷达的Tr1为20000~200000个采样点,由重复周期估计误差引起的频差估计误差最多为Δfdc/4000fc的估计误差一般在100 Hz以内,当载频在GHz时,误差小于Δfdc/107,几乎可以忽略不计。载频越高,载频估计误差对频差估计的影响越小,但是考虑到短孔径假设条件,载频高波长短,短孔径的合成时间tsyn变短。因此在实际应用中,信号的载频未知,为了适应不同载频信号的频差测量,数据录取的时间应小于极限合成孔径时间tsyn,并留有余量。同时对于窄带信号,高的载频能更充分的满足3.1节信号带宽远小于载频的假设,使窄带频差估计的算法更有效。

    仿真采样率为100 MHz,脉宽为50 μs,带宽90 MHz,重复周期为100 μs,载频为1.5 GHz,多普勒频率为115853.4 Hz和123526.3 Hz,合成孔径时间为0.2 s。图4为带有噪声的情况下的干涉相位,噪声为高斯噪声,SNR为20 dB,图5为某个脉冲的距离向剖面图,可以看出干涉相位随着频率线性变化。

    图 4  有噪声的情况下干涉的相位图
    图 5  某个脉冲距离向剖面图

    噪声的情况下干涉相位随着频率变化,通过线性拟合可以得到干涉相位随频率变化的斜线,用所得的拟合斜线对图4的干涉相位进行补偿,经过多次相位补偿和拟合最终可以得到相位随距离变化的结果。图4有噪声情况下的相位还可以采用最大似然估计法得到中心的相位,从而得到估计的差频。

    脉冲积累数为100时,通过CAF算法和本文算法,得到频差的均方根误差(RMSE)随信噪比的变化情况,如图6所示。从图6中可以看出,本文算法有较好的宽带信号处理能力,误差可以达到10 Hz以内,并且信噪比越高,均方根误差越小。

    图 6  LFM信号频差均方误差值随信噪比变化

    本文所提算法同样适用于单频信号的测量,采样率为100 MHz,脉宽为50 μs,重复周期为100 μs,载频为1.5 GHz,多普勒频率为115853.4 Hz和123526.3 Hz,通过1000次蒙特卡洛实验,得到基于FFT的Rife算法和本文算法的均方根误差随信噪比变化的情况如图7所示。

    图 7  单频信号频差均方误差值随信噪比变化

    由式(13)可知时差是慢时间tm的线性函数,斜率为TrΔfdc/(Tr1fc),时差主要用过包络的相关获得,影响信号包络的主要因素是信噪比,信噪比在10 dB时,时由于噪声引起的时差误差不超过30 ns。双星TDOA的估计方法为检测每个卫星接收的脉冲信号的TOA,双星得到的结果相减获得双星的TDOA。常用方法有[23]:基于单点滑动乘法累加的TOA估计,基于分段DFT的TOA估计,基于自相关的TOA估计。

    仿真采样率为100 MHz时,通过1000次蒙特卡洛实验,得到常规算法和本文提出算法的均方根误差(RMSE)随信噪比变化的情况如图8所示。

    图 8  时差均值随信噪比的变化

    双站TDOA/FDOA定位方程中,影响定位精度的测量误差有:TDOA/FDOA测量误差,卫星的三轴位置误差和速度误差。在TDOA/FDOA定位系统中,定位误差对FDOA的测量精度更敏感,要达到1 km的定位精度,需要Hz级的频差测量精度。当信噪比为5 dB时,在1σ原则下,时差误差为17.78 ns,频差误差为3.134 Hz,卫星的3维位置误差为0.5 m,卫星的3维速度误差为0.1 m/s。图9是定位的几何精度因子(Geometric Dilution Of Precision, GDOP)图,在卫星飞行方向两侧较大的范围内,定位误差在1 km以内。

    图 9  双星时差频差定位的GDOP (km)

    通过STK软件进行卫星轨道和信号源3维位置的仿真,将仿真的轨道数据和信号源位置用于信号的生成,仿真数据中加入高斯噪声,信噪比为10 dB。

    表1为通过本文的方法处理STK仿真数据的结果,第1组数据的载频为1.59 GHz,脉宽10 μs,脉冲重复周期100 μs,信号的带宽10 MHz,合成孔径时间为0.2 s;第2组数据的载频为1.78 GHz,其他参数与第1组信号参数相同。从测量的结果可以看出,单个卫星的基频测量误差为30~40 Hz,误差较大。通过双星干涉测量的频差,误差在10 Hz以内。STK仿真数据处理结果表明,双星干涉测量频差的结果更加精确。

    表 1  STK仿真数据处理结果
    载频(GHz)脉宽(μs)脉冲重复周期(μs)带宽(MHz)基频测量结果(Hz)基频测量误差(Hz)相对误差(Hz)
    1.591010010–4781.533.97422.16
    1.5910100101710.531.8189
    1.781010010–1120.340.68524.20
    1.7810100102486.236.4891
    下载: 导出CSV 
    | 显示表格

    通过CAF对两组数据进行频差估计,第1组数据估计的频差为6531.8 Hz,误差为41.93 Hz;第2组数据估计的频差为6366.4 Hz,误差为31.29 Hz。

    利用上述频差估计的方法,进行定位误差的仿真。地球模型采用球体模型,地球半径为6378.14 km,卫星轨道高度为1000 km。两颗卫星相距100 km,两个卫星的坐标为(单位m):卫星1(7377830.58, 0, 50000),卫星2(7377830.58, 0, –50000),卫星速度(m/s): (0, 7000, 0)。辐射源目标位于地球表面,位置参数如表2所示。通过测量时差和频差,代入定位方程,求解目标的位置,目标的定位结果如表2所示,定位误差小于1 km。

    表 2  时差频差定位结果
    载频(GHz)脉宽(μs)脉冲重复周期(μs)带宽(MHz)目标真实位置(m)目标测量位置(m)相对误差(m)
    1.591010010(6303534, –92215, 968286)(6303532, –92876, 968234)662
    1.591010010(6348796, –27959, 610439)(6348797, –27448, 610446)510
    1.781010010(6339522, –16218, 700588)(6339520, –16829, 700590)611
    1.781010010(6374947, 30978, 199294)(6374945, 30530, 199409)462
    下载: 导出CSV 
    | 显示表格

    通过CAF的方法进行频差估计的定位结果如表3所示。

    表 3  常规方法定位结果
    目标真实位置(m)目标测量位置(m)相对误差(m)
    (6303534, –92215, 968286)(6303808, –91936, 970069)1825
    (6348796, –27959, 610439)(6348976, –28173, 612353)1935
    (6339522, –16218, 700588)(6339615, –16496, 701470)930
    (6374947, 30978, 199294)(6374905, 30788, 198028)1280
    下载: 导出CSV 
    | 显示表格

    本文从当前定位模式出发,分析了传统定位方法的局限性和双星干涉测量时差频差的稳定性,在此基础上提出了基于合成孔径的双星时差频差定位算法,并分析了算法的性能。STK仿真数据的处理结果证实了本文提出的新方法在大范围内可以实现1 km以内的定位精度。

  • 图  1  DINO模型网络结构

    图  2  LGDNet结构

    图  3  文档图像预处理过程

    图  4  SwTNet-50主干网络

    图  5  一对多匹配辅助分支

    图  6  TNCR数据集中5种类型的表格图像

    图  7  Full lined类型表格检测结果

    图  11  Partial lined and Merged cells类型表格检测结果

    图  9  Partial lined类型表格检测结果

    图  8  Merged cells类型表格检测结果

    图  10  No lines类型表格检测结果

    表  1  辅助头信息

    辅助头i 匹配方式Ai
    {pos}, {neg}生成规则 Pi生成规则 B{pos}i生成规则
    Faster R-CNN {pos}:IoU(proposal, gt)>0.5
    {neg}:IoU(proposal, gt)<0.5
    {pos}:gt labels, offset(proposal, gt)
    {neg}:gt labels
    positive proposals
    (x1,y1,x2,y2)
    ATSS {pos}:IoU(anchor, gt)>(mean+std)
    {neg}:IoU(anchor, gt)<(mean+std)
    {pos}:gt labels, offset(anchor, gt), centerness
    {neg}:gt labels
    positive anchors
    (x1,y1,x2,y2)
    下载: 导出CSV

    表  2  TNCR, IIIT-AR-13K数据集上的对比实验结果(%)

    数据集 网络模型 F1-Score
    IoU@0.5 IoU@0.75 IoU@0.9
    TNCR Cascade Mask R-CNN[12] 93.1 92.1 86.6
    DiffusionDet[20] 95.5 93.9 88.5
    Deformable DETR[17] 94.5 93.7 89.3
    DINO[21] 94.6 91.4 90.1
    Sparse R-CNN[19] 95.2 94.8 90.9
    本文 98.2 97.4 93.3
    IIIT-AR-13K Faster R-CNN[8] 93.7
    Mask R-CNN[25] 97.1
    DINO[21] 97.4
    本文 98.6
    下载: 导出CSV

    表  3  主干网络对比实验结果(%)

    网络模型主干网络F1-Score
    IoU@0.5IoU@0.75IoU@0.9
    DINO[21]ResNet5093.590.689.7
    Swin Transformer94.691.490.1
    本文SwTNet-5095.893.691.1
    下载: 导出CSV

    表  4  消融实验结果(%)

    序号网络模型F1-Score
    IoU@0.5IoU@0.75IoU@0.9
    1DINO[21]94.691.490.1
    2DINO+文档图像预处理(DINO_DIP)95.292.090.5
    3DINO_DIP+SwTNet-5096.894.291.7
    4DINO_DIP+一对多匹配辅助分支97.596.792.8
    5LGDNet(DINO_DIP+SwTNet-50+一对多匹配辅助分支)98.297.493.3
    下载: 导出CSV
  • [1] 高良才, 李一博, 都林, 等. 表格识别技术研究进展[J]. 中国图象图形学报, 2022, 27(6): 1898–1917. doi: 10.11834/jig.220152.

    GAO Liangcai, LI Yibo, DU Lin, et al. A survey on table recognition technology[J]. Journal of Image and Graphics, 2022, 27(6): 1898–1917. doi: 10.11834/jig.220152.
    [2] WATANABE T, LUO Qin, and SUGIE N. Structure recognition methods for various types of documents[J]. Machine Vision and Applications, 1993, 6(2/3): 163–176. doi: 10.1007/BF01211939.
    [3] GATOS B, DANATSAS D, PRATIKAKIS I, et al. Automatic table detection in document images[C]. The Third International Conference on Advances in Pattern Recognition, Bath, UK, 2005: 609–618. doi: 10.1007/11551188_67.
    [4] KASAR T, BARLAS P, ADAM S, et al. Learning to detect tables in scanned document images using line information[C]. 2013 12th International Conference on Document Analysis and Recognition, Washington, USA, 2013: 1185–1189. doi: 10.1109/ICDAR.2013.240.
    [5] ANH T, IN-SEOP N, and SOO-HYUNG K. A hybrid method for table detection from document image[C]. 2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR), Kuala Lumpur, Malaysia, 2015: 131–135. doi: 10.1109/ACPR.2015.7486480.
    [6] LEE K H, CHOY Y C, and CHO S B. Geometric structure analysis of document images: A knowledge-based approach[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1224–1240. doi: 10.1109/34.888708.
    [7] SCHREIBER S, AGNE S, WOLF I, et al. DeepDeSRT: Deep learning for detection and structure recognition of tables in document images[C]. 2017 14th IAPR International Conference on Document Analysis and Recognition, Kyoto, Japan, 2017: 1162–1167. doi: 10.1109/ICDAR.2017.192.
    [8] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031.
    [9] ARIF S and SHAFAIT F. Table detection in document images using foreground and background features[C]. 2018 Digital Image Computing: Techniques and Applications (DICTA), Canberra, Australia, 2018: 1–8. doi: 10.1109/DICTA.2018.8615795.
    [10] SIDDIQUI S A, MALIK M I, AGNE S, et al. DeCNT: Deep deformable CNN for table detection[J]. IEEE Access, 2018, 6: 74151–74161. doi: 10.1109/ACCESS.2018.2880211.
    [11] SUN Ningning, ZHU Yuanping, and HU Xiaoming. Faster R-CNN based table detection combining corner locating[C]. 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019: 1314–1319. doi: 10.1109/ICDAR.2019.00212.
    [12] CAI Zhaowei and VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, USA, 2018: 6154–6162. doi: 10.1109/CVPR.2018.00644.
    [13] PRASAD D, GADPAL A, KAPADNI K, et al. CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, USA, 2020: 2439–2447. doi: 10.1109/CVPRW50498.2020.00294.
    [14] AGARWAL M, MONDAL A, and JAWAHAR C V. CDeC-Net: Composite deformable cascade network for table detection in document images[C]. 2020 25th International Conference on Pattern Recognition (ICPR), Milan, Italy, 2021: 9491–9498. doi: 10.1109/ICPR48806.2021.9411922.
    [15] HUANG Yilun, YAN Qinqin, LI Yibo, et al. A YOLO-based table detection method[C]. 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019: 813–818. doi: 10.1109/ICDAR.2019.00135.
    [16] SHEHZADI T, HASHMI K A, STRICKER D, et al. Towards end-to-end semi-supervised table detection with deformable transformer[C]. The 17th International Conference on Document Analysis and Recognition-ICDAR 2023, San José, USA, 2023: 51–76. doi: 10.1007/978-3-031-41679-8_4.
    [17] ZHU Xizhou, SU Weijie, LU Lewei, et al. Deformable DETR: Deformable transformers for end-to-end object detection[C]. The 9th International Conference on Learning Representations, Vienna, Austria, 2021.
    [18] XIAO Bin, SIMSEK M, KANTARCI B, et al. Table detection for visually rich document images[J]. Knowledge-Based Systems, 2023, 282: 111080. doi: 10.1016/j.knosys.2023.111080.
    [19] SUN Peize, ZHANG Rufeng, JIANG Yi, et al. Sparse R-CNN: End-to-end object detection with learnable proposals[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 14449–14458. doi: 10.1109/CVPR46437.2021.01422.
    [20] CHEN Shoufa, SUN Peize, SONG Yibing, et al. DiffusionDet: Diffusion model for object detection[C]. 2023 IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 19773–19786. doi: 10.1109/ICCV51070.2023.01816.
    [21] ZHANG Hao, LI Feng, LIU Shilong, et al. DINO: DETR with improved DeNoising anchor boxes for end-to-end object detection[EB/OL]. https://arxiv.org/abs/2203.03605, 2022.
    [22] ZONG Zhuofan, SONG Guanglu, and LIU Yu. DETRs with collaborative hybrid assignments training[C]. 2023 IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 6748–6758. doi: 10.1109/ICCV51070.2023.00621.
    [23] ABDALLAH A, BERENDEYEV A, NURADIN I, et al. TNCR: Table net detection and classification dataset[J]. Neurocomputing, 2022, 473: 79–97. doi: 10.1016/j.neucom.2021.11.101.
    [24] MONDAL A, LIPPS P, and JAWAHAR C V. IIIT-AR-13K: A new dataset for graphical object detection in documents[C]. The 14th IAPR International Workshop, DAS 2020, Wuhan, China, 2020: 216-230. doi: 10.1007/978-3-030-57058-3_16.
    [25] HE Kaiming, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]. Proceedings of 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2980–2988. doi: 10.1109/ICCV.2017.322.
  • 期刊类型引用(6)

    1. 李云飞,冯珂珂,张飞,陈斌,车延超,金岩. 基于频谱细化算法的超声多普勒流量计设计. 传感器与微系统. 2024(10): 79-83 . 百度学术
    2. 邢涛,马春铭,冯亮,李爽,韦立登,李军. 一种用于距离维复杂空变多普勒SAR成像的改进运动补偿方法. 电子与信息学报. 2022(03): 1059-1066 . 本站查看
    3. 姚山峰,贺青,欧阳鑫信,杨宇翔. 一种低轨双星高脉冲重复频率雷达信号的定位模糊消除算法. 电子与信息学报. 2021(03): 598-605 . 本站查看
    4. 赵晨,乔钢,周锋. 基于正交移动双水下自主潜航器的水下合作目标定位方法. 电子与信息学报. 2021(03): 834-841 . 本站查看
    5. 张轶,翟盛华,陶海红. 单星多波束天线下基于压缩感知的多目标干扰定位. 电子与信息学报. 2021(07): 1872-1878 . 本站查看
    6. 曲志昱,王超然,孙萌. 基于改进迭代扩展卡尔曼滤波的3星时频差测向融合动目标跟踪方法. 电子与信息学报. 2021(10): 2871-2877 . 本站查看

    其他类型引用(2)

  • 加载中
图(11) / 表(4)
计量
  • 文章访问数:  243
  • HTML全文浏览量:  107
  • PDF下载量:  41
  • 被引次数: 8
出版历程
  • 收稿日期:  2024-05-30
  • 修回日期:  2024-11-08
  • 网络出版日期:  2024-11-18
  • 刊出日期:  2025-12-01

目录

/

返回文章
返回