高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

双向特征融合的快速精确任意形状文本检测

边亮 屈亚东 周宇

涂国防, 王业奎. 自适应多值量化的亚抽样块截断编码[J]. 电子与信息学报, 1999, 21(4): 506-510.
引用本文: 边亮, 屈亚东, 周宇. 双向特征融合的快速精确任意形状文本检测[J]. 电子与信息学报, 2021, 43(4): 931-938. doi: 10.11999/JEIT200880
Tu Guofang, Wang Yekui . THE ADAPTIVE MULTI-LEVEL QUANTIZED SUBSAMPLED BLOCK TRUNCATION CODINGTHE ADAPTIVE MULTI-LEVEL QUANTIZED SUBSAMPLED BLOCK TRUNCATION CODING[J]. Journal of Electronics & Information Technology, 1999, 21(4): 506-510.
Citation: Liang BIAN, Yadong QU, Yu ZHOU. Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes[J]. Journal of Electronics & Information Technology, 2021, 43(4): 931-938. doi: 10.11999/JEIT200880

双向特征融合的快速精确任意形状文本检测

doi: 10.11999/JEIT200880
详细信息
    作者简介:

    边亮:男,1982年生,博士生,研究方向为图像获取与处理

    屈亚东:男,1998年生,硕士生,研究方向为场景图像文字合成、检测与识别

    周宇:男,1992年生,博士生,研究方向为场景图像文字合成、检测与识别

    通讯作者:

    边亮 askquestionbl@163.com

  • 中图分类号: TN911.73

Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes

  • 摘要: 现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低。为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型。首先,该文构造特征提取器对输入图像提取多尺度特征图。其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化。之后,该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本。其中前者可以保证不同的文本实例之间具有区分性,而后者能有效地指导网络优化。最后,为了提升文本检测的速度,该文提出一个快速且有效的后处理算法来生成文本边界框。实验结果表明:在相关数据集上,该文所提出的方法均实现了最好的效果,且比目前最好的方法在F-measure指标上最多提升了1.0%,并且可以实现将近实时的速度,充分证明了该方法的有效性和高效性。
  • 随着雷达分辨率的不断提升,海杂波呈现出明显的重拖尾和非高斯特征,不再满足中心极限定理的假设,导致高斯杂波背景下设计的检测器虚警和漏检概率升高[1]。复合高斯模型(Compound Gaussian Model, CGM)将高分辨海杂波建模为慢变纹理分量调制快变散斑分量的过程,能够较好地拟合高分辨海杂波的非高斯特性。利用不同分布的随机变量建模CGM的纹理分量即可得到不同的杂波模型。当纹理分量分别服从伽马分布、逆伽马分布和逆高斯(Inverse Gaussian, IG)分布时,海杂波幅度序列的概率密度函数(Probability Density Function, PDF)分别服从K分布[2],Pareto分布[3]和逆高斯纹理复合高斯模型(Compound Gaussian model with Inverse Gaussian texture, CG-IG)[4]。然而,受海况、擦地角、雷达极化方式和载频等因素的影响,上述3种杂波模型的拟合适用范围仍然存在限制,且存在模型选择问题。针对此问题,文献[5]提出使用广义逆高斯(Generalized Inverse Gaussian, GIG)分布建模CGM的纹理分量,得到具有高泛化能力和高拟合优度的广义逆高斯纹理复合高斯模型(Compound-Gaussian model with Generalized Inverse Gaussian texture, CG-GIG)。由于伽马分布、逆伽马分布和IG分布分别是GIG在不同参数下的特例,所以在GIG纹理背景下设计的相干检测器能够最大程度避免因拟合误差造成的性能损失。

    为了解决非高斯、时变杂波背景下的目标检测问题,文献[6]首次在CGM下提出纹理分量未知的归一化自适应匹配滤波(Adaptive Normalized Matched Filter, ANMF)检测器。ANMF检测器虽然适用于所有纹理结构的复合高斯杂波,但其对任意一种纹理结构的杂波均不具有最优检测性能。针对伽马纹理结构下的K分布杂波,文献[7]基于GLRT准则,提出了最优K检测器(Optimum K Detector, OKD)。针对逆伽马纹理结构下的广义Pareto分布,文献[8]提出了广义似然比线性门限检测器(Generalized Likelihood Ratio Test with Linear-Threshold Detector, GLRT-LTD)。值得注意的是,GLRT-LTD为广义Pareto分布下的最优相干检测器,且具有解析的门限结构。文献[9]在CG-IG杂波背景下,基于GLRT准则设计具有逆高斯纹理结构的广义似然比(Generalized Likelihood Ratio Test with Inverse Gaussian texture, GLRT-IG)检测器。文献[10]给出了CG-GIG杂波背景下的最优相干检测器,命名为GIG纹理下的广义似然比检测(Generalized Likelihood Ratio Test with Generalized Inverse Gaussian texture, GIG-GLRT)器。为了进一步提升检测器的性能,海杂波的频谱分布、纹理分量空间相关性和散斑协方差矩阵斜对称特征等先验信息被引入检测器的结构设计。文献[11]结合ANMF检测器,在CG-GIG杂波背景下提出近最优的alpha自适应匹配滤波(α Adaptive Matched Filter, α-AMF)检测器,实现了检测性能和计算复杂度的折衷。文献[12]将海杂波纹理分量的空间相关性引入GLRT检测器的设计,在均匀和部分均匀杂波背景下提升了目标检测性能。文献[13]将协方差矩阵的斜对称特性引入检测器设计中,一定程度上降低了检测器对参考单元杂波数据的依赖。然而,上述检测器均假定目标速度已知,并未考虑导向矢量失配对检测器的影响。在实际雷达对海探测过程中,受波束指向误差等不确定性因素的影响,实际导向矢量和理论导向矢量可能存在不匹配现象,如图1所示。导向矢量的失配可能会检测到非期望的副瓣目标,从而引起不必要的虚警。为了平衡检测器的目标检测性能以及抗失配能力,文献[14]在存在失配信号的条件下推导得到自适应波束形成器正交抑制检测(Adaptive Beamformer Orthogonal Rejection Test, ABORT)算法。文献[15]在CG-IG分布杂波背景下,提出类似于ABORT检测器结构的目标检测算法。针对距离扩展目标检测问题,文献[16]在K分布杂波背景下设计类似于ABORT的检测器。

    图 1  失配示意图

    本文针对GIG纹理背景下的失配检测问题,分别基于GLRT和最大后验估计GLRT(Maximum A Posteriori GLRT, MAP GLRT)准则发展类似于ABORT的失配检测器。首先,通过在零假设中引入与理论导向矢量正交的虚拟信号来抑制失配信号。然后基于失配情况下的目标检测模型设计两个失配检测器,并证明其对散斑协方差矩阵和目标多普勒导向矢量均具有CFAR特性。最后仿真和实测海杂波数据实验结果表明,提出的失配检测器以牺牲匹配情况下较小的检测性能为代价,换取了较高的抗失配性能。相较于CG-GIG分布下的GIG-GLRT, MAP-GLRT[17], α-AMF检测器以及不依赖纹理结构分布的ANMF和ABORT检测器,提出的失配检测器同时兼备较好的目标检测性能和抗失配性能。

    失配情况下的实际导向矢量pm通常由平行和正交于理论导向矢量ppmpm构成,即pm=pm+pm。其中,pm=αp是希望检测到的目标回波,而pm=βq是不希望检测到的干扰信号。为了提升检测器的抗失配性能,与ABORT检测器类似,引入虚拟信号βq建模零假设H0下的待检测(Cell Under Test, CUT)回波向量。因此在GIG纹理背景下导向矢量失配的目标检测模型定义为

    H0:{z=βq+czk=ck,k=1,2,,LH1:{z=αp+czk=ck,k=1,2,,L}
    (1)

    其中,零假设H0表示CUT中不存在目标,而备择假设H1表示CUT中存在目标。向量z=[z1,z2,,zN]T表示CUT回波,其中包含N个相参脉冲;zk,k=1,2,,L表示CUT周围存在的L个参考单元;α表示目标回波幅度,通常被建模为Swerling 0型;p=[1,ej2πfd,,ej2π(N1)fd]表示目标回波的导向矢量,其归一化多普勒频率fd在区间[0.5,0.5]内服从均匀分布;τu分别表示杂波的纹理分量和散斑分量;βq表示人为引入H0的虚拟信号,βq分别表示虚拟信号的复幅度和导向矢量,虚拟导向矢量q在白化空间中与理论导向矢量p正交,即M1/2p=M1/2q。需要注意的是,在ABORT检测器中,所引入的虚拟信号q与理论导向矢量p在准白化空间中正交,即S1/2p=S1/2q,其中S表示理论散斑协方差矩阵M的估计值。根据球不变随机向量模型,CUT回波向量在H0H1假设下的条件PDF定义为

    f0(z|β,M,τ;H0)=1(πτ)N|M|exp((zβq)HM1(zβq)τ)
    (2)
    f1(z|α,M,τ;H1)=1(πτ)N|M|exp((zαp)HM1(zαp)τ)
    (3)

    其中,τ表示GIG分布的随机数,其PDF表达式f(τ)

    f(τ)=(a/b)p/2τp12Kp(ab)e(aτ+b/τ)2,a>0,b>0
    (4)

    其中,ab分别表示GIG分布的形状参数和尺度参数,Kp()表示p阶第2类修正Bessel函数。伽马和逆伽马分布分别对应形状参数a=0和尺度参数b=0时的GIG分布;当p=1/122,b=λua=λ/λuu时,GIG分布退化为形状参数为λ尺度参数为μ的GIG分布。

    本节考虑导向矢量失配的影响,基于两步GLRT和MAP-GLRT准则在广义逆高斯杂波背景下设计失配检测器,并通过理论证明所提检测器对散斑协方差矩阵M以及目标多普勒导向矢量p具有CFAR特性。

    本节基于两步GLRT准则设计失配检测器。首先假设杂波散斑分量u的协方差矩阵M已知,那么导向矢量失配情况下的GLRT准则定义为

    maxαf1(z|α,τ;H1)f(τ)dτmaxβf0(z|β,τ;H0)f(τ)dτH1H0ξg
    (5)

    其中,ξg为GLRT检测器的检测门限,式(5)中参数αβ的最大似然(Maximum Likelihood, ML)估计为ˆαˆβ,定义分别为

    ˆα=pHM1zpHM1p
    (6)
    ˆβ=qHM1zqHM1q
    (7)

    将式(6)和式(7)分别代入式(2)和式(3)的条件PDF中,可以得到

    maxβf0(z|β,τ;H0)=f0(z|ˆβ,τ;H0)=1(πτ)N|M|exp(l0τ)
    (8)
    maxαf1(z|α,τ;H1)=f0(z|ˆα,τ;H1)=1(πτ)N|M|exp(l1τ)
    (9)

    其中l0l1分别定义为

    l0=zHM1z|qHM1z|2qHM1q
    (10)
    l1=zHM1z|pHM1z|2pHM1p
    (11)

    设矩阵A的投影矩阵为PA=A(AHA)1AH,那么投影矩阵PA的正交补矩阵定义为PA=IPA=IA(AHA)1AH,其中I表示与矩阵A行维数相同的单位矩阵。利用虚拟导向矢量q与理论导向矢量p在白化空间中相互正交的性质,M1/2p=M1/2q可以改写为

    INM1/2qqHM1/2qHM1q=M1/2ppHM1/2pHM1p
    (12)

    将式(12)代入式(10),化简l0

    l0=zHM1/2(INM1/2qqHM1/2qHM1q)M1/2z=|pHM1z|2pHM1p
    (13)

    将式(4)和式(9)代入式(5),即可得到式(5)分子部分关于纹理分量τ的积分结果,如式(14)所示

    f1(z|ˆα,τ;H1)f(τ)dτ=aN/2bp/2(2l1+b)pN2πN|M|Kp(ab)KNp(a(2l1+b))
    (14)

    同理,式(5)分母部分关于纹理分量τ的积分结果如式(15)所示

    f0(z|ˆβ,τ;H0)f(τ)dτ=aN/2bp/2(2l0+b)pN2πN|M|Kp(ab)KNp(a(2l0+b))
    (15)

    将式(14)和式(15)代入式(5),即可得到广义逆高斯纹理复合高斯杂波背景下类似于AOBRT(ABORT-like Generalized Compound Gaussian with Inverse Gaussian, A-CGGIG)检测器的检验统计量,如式(16)所示

    (2l1+b)PN2KNp(a(2l1+b))(2l0+b)PN2KNp(a(2l0+b))H1H0ξg
    (16)

    第2步,利用参考单元数据zk,k=1,2,,L估计散斑分量的协方差矩阵实现自适应相干检测。本文采用约束渐进最大似然估计器(Constrained Approximate Maximum Likelihood Estimator, CAMLE)估计M,降低海杂波纹理分量τ对散斑协方差矩阵估计的影响,CAMLE的定义为

    ˆM(m)=NLLk=1zkzHkzHkˆM1(m)zkˆM(m)=NTr(ˆM(m))ˆMCAMLE(m)}
    (17)

    其中,m表示迭代次数,运算符Tr()表示求矩阵的迹。CAMLE的初值通常采用归一化样本协方差矩阵(Normalized Sample Covariance Matrix, NSCM),通过1~3次迭代即可得到较为准确的估计结果。将散斑协方差矩阵的估计结果ˆM带入式(16),得到自适应的A-CGGIG检测器

    (2ˆl1+b)PN2KNp(a(2ˆl1+b))(2ˆl0+b)PN2KNp(a(2ˆl0+b))H1H0ξg
    (18)

    其中,ˆl1ˆl0分别是l1l0的估计值,定义为

    ˆl1=zHˆM1z|pHˆM1z|2/(pHˆM1p)ˆl0=|pHˆM1z|2/(pHˆM1p)}
    (19)

    本节基于两步MAP GLRT准则设计失配检测器。首先假设杂波散斑分量u的协方差矩阵M已知,那么导向矢量失配情况下的MAP GLRT准则定义为

    maxτ1,αf1(z|α,τ1;H1)f(τ)maxτ0,βf0(z|β,τ0;H0)f(τ)H1H0ξh
    (20)

    其中,ξh表示MAP GLRT检测器的检测门限。参数αβ的ML估计ˆαˆβ同式(6)和式(7)。将ˆαˆβ代入式(2)和式(3),并乘以式(4)所示的广义逆高斯分布,即可得到式(21)和式(22)

    f0(z|ˆβ,τ0;H0)f(τ0)=(a/b)p/22Kp(ab)πN|M|τpN10exp[(a2τ0+l0+b/b22τ0)]
    (21)
    f1(z|ˆα,τ1;H1)f(τ1)=(a/b)p/22Kp(ab)πN|M|τpN11exp[(a2τ1+l1+b/b22τ1)]
    (22)

    分别计算式(21)和式(22)的对数表达式,并对纹理分量τ求偏导,将其结果置0,即可以分别得到零假设H0和备择假设H1下纹理分量的MAP估计ˆτ0ˆτ1,如式(23)和式(24)所示

    ˆτ0=((N+1p)+sqrt((N+1p)2+a(2l0+b)))/a
    (23)
    ˆτ1=((N+1p)+sqrt((N+1p)2+a(2l1+b)))/a
    (24)

    将式(11)、式(13)、式(23)和式(24)代入式(20),即可得到基于MAP准则的广义逆高斯纹理复合高斯杂波背景下类似于AOBRT(ABORT-like Generalized Compound Gaussian with Inverse Gaussian, AM-CGGIG)检测器的检验统计量,如式(25)所示

    ˆτ1pN1exp[(a2ˆτ1+l1+b/b22ˆτ1)]ˆτ0pN1exp[(a2ˆτ0+l0+b/b22ˆτ0)]H1H2ξh
    (25)

    第2步,将式(17)中的CAMLE的估计结果代入式(25),即可得到AM-CGGIG检测器的自适应形式,定义为

    ˆτ1pN1exp[(a2ˆτ1+ˆl1+b/b22ˆτ1)]ˆτ0pN1exp[(a2ˆτ0+ˆl0+b/b22ˆτ0)]H1H2ξh
    (26)

    对比式(18)和式(26)的检验统计量可以发现,次优的AM-CGGIG检测器由于利用MAP算法估计海杂波的纹理结构,其检验统计量中不存在第2类修正Bessel函数,因此降低了计算复杂度。

    本节分析提出的A-CGGIG和AM-CGGIG检测器的CFAR特性。可以发现式(18)和式(26)均为变量ˆl0ˆl1的函数,因此仅需分析ˆl0ˆl1与失配检测器的关系即可,首先将这两个变量分别重写为

    ˆl0=|(M1/2p)HM1/2ˆM1M1/2(M1/2z)|2(M1/2p)HM1/2ˆM1M1/2(M1/2p)
    (27)
    ˆl1=(M1/2z)HM1/2ˆM1M1/2(M1/2z)ˆl0
    (28)

    对于重塑后的导向矢量M1/122p而言,总存在一个Householder矩阵P,能够将其转化为PM1/2p=|M1/2p|v,其中v=(1,0,0,,0)T。基于球不变随机向量模型,分别化简ˆl0ˆl1

    ˆl0=|(PM1/2p)HPM1/2ˆM1M1/2PH(PM1/2z)|2(PM1/2p)HPM1/2ˆM1M1/2PH(PM1/2p)=τ|vHˉM1n|2vHˉM1v
    (29)
    ˆl1=(PM1/2z)HPM1/2ˆM1M1/2PH(PM1/2z)ˆl0=τ(nHˉM1n)ˆl0
    (30)

    其中,n=PM1/122uˉM=PM1/122ˆMM1/122PH。杂波向量n服从nCN(0,I)。此外,由于采用CAMLE,矩阵ˉM与理论散斑协方差矩阵M之间相互独立[18]。将式(29)和式(30)代入式(18)和式(26)中,可以发现检测器A-CGGIG和AM-CGGIG的检验统计量均独立于Mp,这表明A-CGGIG和AM-CGGIG检测器对Mp具有CFAR特性。

    本节在导向矢量匹配和出现失配两种情况下,利用仿真和实测海杂波数据验证提出的A-CGGIG和AM-CGGIG检测器性能及其CFAR特性。理论导向矢量p和实际导向矢量pm失配角θ余弦值的平方定义为

    cos2θ=|pHM1pm|2(pHM1p)(pHmM1pm)
    (31)

    cos2θ=1时,表示实际导向矢量pm和理论导向矢量p相匹配;当0<cos2θ<1时,表示理论导向矢量p失配于实际导向矢量pm

    在仿真杂波数据实验中,散斑协方差矩阵M被建模为1阶滞后衰减系数为ρ的指数相关型协方差矩阵,即Mi,j=ρ|ij|,1i,jN,对于海杂波而言ρ[0.9,0.99],本节设定ρ=0.9。此外,设定脉冲积累数目N=6,参考单元数目L=20,仿真杂波参数为a=1,b=1,p=2;目标归一化多普勒频率为fd=0.3,目标检测中的虚警概率为Pfa=104,蒙特卡洛实验次数为105,信杂比(Signal Clutter Ratio, SCR)为

    SCR=10lg(|α|2Sρ(fd))
    (32)

    其中,Sρ(fd)表示海杂波的多普勒功率谱密度,定义为

    Sρ(fd)=1+2N1n=1(1nN)ρncos(2πfdn)
    (33)

    图2(a)展示了提出的A-CGGIG和AM-CGGIG检测器在导向矢量匹配时,即pm=p,与ANMF, ABORT, GIG-GLRT, MAP-GLRT以及α-AMF检测器的检测性能曲线;当信杂比SCR=6dB时,图2(b)展示了提出的检测器和对比检测器的接收机工作特性(Receiver Operating Characteristic, ROC)曲线。表1列举了A-CGGIG和AM-CGGIG检测器与对比检测器目标检测概率达到90%时所需要的SCR。

    图 2  在匹配情况下提出的检测器与对比检测器的目标检测性能
    表 1  导向矢量匹配时上述检测器检测概率达到90%时所需要的SCR(dB)
    检测器类型ANMFABORTGIG-GLRTMAP-GLRTα-AMFA-CGGIGAM-GIGIG
    信杂比8.407.615.705.715.825.805.93
    下载: 导出CSV 
    | 显示表格

    综合分析图2表1,可以发现提出的A-CGGIG和AM-CGGIG检测器在导向矢量匹配时的检测性能与GIG-GLRT和MAP-GLRT检测器的差距小于0.5 dB,且优于α-AMF, ANMF以及ABORT检测器。

    在导向矢量出现失配时,所检测到的目标并非是期望方向上的目标,此时希望检测器的性能越差越好。提出的A-CGGIG和AM-CGGIG检测器与对比检测器的抗失配性能对比如图3所示,图3(a)表征检测器在不同SCR和失配角下抗失配性能的台面图,图3中0.9, 0.5, 0.1表示检测概率。从图3中可以发现提出的A-CGGIG和AM-CGGIG的抗失配性能优于GIG-GLRT, MAP-GLRT以及α-AMF检测器。

    图 3  在失配情况下提出的检测器与对比检测器的目标检测性能

    沿着图3(a)纵坐标取点,即可获取检测器在相应失配角下的检测性能曲线。图3(b)图3(c)分别展示了当cos2θ=0.8cos2θ=0.6时,上述检测器的性能曲线。从图3中可以发现,所有检测器的性能均会随着失配角度的增加而下降。一般而言,检测器的抗失配性能提升是以牺牲检测性能为代价的,而提出的检测器在导向矢量匹配时的检测性能与最优检测器差距小于0.5 dB,且对导向矢量的失配较为敏感,属于同时兼顾目标检测性能和抗失配能力的检测器。

    图4分析了所提A-CGGIG和AM-CGGIG检测器关于目标多普勒频率fd和1阶迟滞衰减系数ρ的CFAR特性。从图4(a)图4(b)中可以发现,自适应A-CGGIG和AM-CGGIG检测器的Pfa在不同fdρ保持为10–4不变,与预先设置的Pfa一致。这表明fdM不影响自适应A-CGGIG和AM-CGGIG检测器的门限大小,表明提出的检测器对fdM具有CFAR特性。

    图 4  检测器虚警概率曲线

    在实测数据实验中,IPIX雷达1998年19980205_171437_ANTSTEP文件VV极化数据被用于验证提出的检测器性能。19980205_171437_ANTSTEP数据共具有28个距离单元,为了方便实验,剔除第6~9受目标回波影响的距离单元,在剩余的纯海杂波数据中添加相干脉冲数目N=6的仿真目标信号,通过蒙特-卡洛实验获得检测概率曲线。图5(a)展示了CG-GIG分布对实测海杂波数据的拟合结果,可以发现相较于K分布、广义Pareto分布以及CG-IG分布,CG-GIG分布具有较好的拟合效果,其参数估计结果为ˆa=0.15,ˆb=1.35,ˆp=0.7图5(b)给出了所提A-CGGIG和AM-CGGIG检测器与对比检测器在导向矢量匹配情况时的目标检测性能。

    图 5  实测海杂波数据背景下检测器性能分析

    表2列举了A-CGGIG和AM-CGGIG检测器与对比检测器目标检测概率达到90%时所需要的SCR。从图5(b)表2可以发现,A-CGGIG和AM-CGGIG检测器与GIG-GLRT检测器在导向矢量匹配时性能差距小于0.5 dB。

    表 2  导向矢量匹配时上述检测器检测概率达到90%时所需要的SCR(dB)
    检测器类型ANMFABORTGIG-GLRTMAP-GLRTα-AMFA-CGGIGAM-GIGIG
    信杂比12.8812.1611.3411.5011.4311.3711.53
    下载: 导出CSV 
    | 显示表格

    图6分析了A-CGGIG和AM-CGGIG检测器与对比检测器在导向矢量失配情况下的检测性能。从图6中可以发现,提出的检测器的抗失配性优于GIG-GLRT和MAP-GLRT检测器。综上所述,提出的检测器仅以牺牲匹配情况下较小的检测性能为代价,提升了出现失配信号时的抗失配性能。

    图 6  检测器抗失配性能对比

    本文针对导向矢量失配情况下的目标检测问题,为了抑制失配信号,在H0假设中人为引入虚拟信号βq,并基于GLRT和MAP GLRT准则在GIG纹理背景下发展对散斑协方差矩阵M和导向矢量p具有CFAR特性的A-CGGIG和AM-CGGIG检测器。仿真和实测数据实验结果表明,提出的检测器兼顾匹配情况下的目标检测性能和失配情况下的抗失配性能。

  • 图  1  双向特征融合模块内部网络示意图

    图  2  网络结构图

    图  3  标签生成示意图

    图  4  检测的最终结果

    图  5  不同方法在3个数据集上的速度-精度对比

    图  6  不同数据集模型的测试结果可视化图

    图  7  模型检测错误的一些例子

    表  1  双向特征融合模块及整体文本框分支在不同基础网络下的性能增益及检测效率

    基础网络双向特征
    融合模块
    整体文本区
    域预测分支
    评价指标(%)FPS
    准确率召回率F综合指标
    ResNet-50××87.482.785.017.4
    ResNet-50×87.883.185.416.8
    ResNet-5088.083.585.716.0
    ResNet-18××86.679.883.131.0
    ResNet-18×85.980.883.330.5
    ResNet-1886.581.283.829.6
    下载: 导出CSV

    表  2  TotalText数据集模型性能对比

    方法评价指标(%)FPS
    准确率召回率F综合指标
    EAST*[12]36.250.042.0
    TextSnake[2]74.582.778.4
    MSR[21]74.883.879.04.3
    PSENet-1s[7]78.084.080.93.9
    Textfield[22]81.279.980.66
    LOMO[13]87.679.383.3
    CRAFT[20]87.679.983.6
    DB[9]87.182.584.732
    本文方法88.083.585.716
    下载: 导出CSV

    表  3  MSRA-TD500数据集模型性能对比

    方法评价指标(%)FPS
    准确率召回率F综合指标
    RRPN[23]82.068.074.0
    MCN[24]88.079.083.0
    PixelLink[6]83.073.277.83.0
    TextSnake[2]83.273.978.31.1
    CRAFT[20]88.278.282.98.6
    Tian等人[32]84.281.782.9
    DB[9]91.579.284.932.0
    本文方法91.181.385.917.1
    下载: 导出CSV

    表  4  CTW1500数据集模型性能对比

    方法评价指标(%)FPS
    准确率召回率F综合指标
    CTPN[25]60.453.856.97.14
    EAST[12]78.749.160.421.2
    Seglink[11]42.340.040.810.7
    TextSnake[2]67.985.375.61.1
    PSENet-1s[7]84.879.782.23.9
    Tian等人[3]77.882.780.13
    LOMO[13]69.689.278.44.4
    DB[9]86.980.283.422
    本文方法84.782.383.515.2
    下载: 导出CSV
  • 黄剑华, 承恒达, 吴锐, 等. 基于模糊同质性映射的文本检测方法[J]. 电子与信息学报, 2008, 30(6): 1376–1380.

    HUANG Jianhua, CHENG Hengda, WU Rui, et al. A new approach for text detection using fuzzy homogeneity[J]. Journal of Electronics &Information Technology, 2008, 30(6): 1376–1380.
    LONG Shangbang, RUAN Jiaqiang, ZHANG Wenjie, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 19–35.
    TIAN Zhuotao, SHU M, LYU P, et al. Learning shape-aware embedding for scene text detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 4229–4238.
    HUANG Weilin, QIAO Yu, and TANG Xiaoou. Robust scene text detection with convolution neural network induced MSER trees[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 497–511.
    JADERBERG M, VEDALDI A, and ZISSERMAN A. Deep features for text spotting[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 512–528.
    DENG Dan, LIU Haifeng, LI Xuelong, et al. Pixellink: Detecting scene text via instance segmentation[C]. The 32nd AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018: 6773–6780.
    WANG Wenhai, XIE Enze, LI Xiang, et al. Shape robust text detection with progressive scale expansion network[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9328–9337.
    XIE Enze, ZANG Yuhang, SHAO Shuai, et al. Scene text detection with supervised pyramid context network[C]. The 33rd AAAI Conference on Artificial Intelligence, Honolulu, USA, 2019: 9038–9045.
    LIAO Minghui, WAN Zhaoyi, YAO Cong, et al. Real-time scene text detection with differentiable binarization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11474–11481. doi: 10.1609/aaai.v34i07.6812
    LIAO Minghui, SHI Baoguang, and BAI Xiang. Textboxes++: A single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3676–3690. doi: 10.1109/TIP.2018.2825107
    SHI Baoguang, BAI Xiang, and BELONGIE S. Detecting oriented text in natural images by linking segments[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3482–3490.
    ZHOU Xinyu, YAO Cong, WEN He, et al. EAST: An efficient and accurate scene text detector[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2642–2651.
    ZHANG Chengquan, LIANG Borong, HUANG Zuming, et al. Look more than once: An accurate detector for text of arbitrary shapes[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 10544–10553.
    DAI Jifeng, QI Haozhi, XIONG Yuwen, et al. Deformable convolutional networks[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 764–773.
    谢金宝, 侯永进, 康守强, 等. 基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报, 2018, 40(5): 1258–1265. doi: 10.11999/JEIT170815

    XIE Jinbao, HOU Yongjin, KANG Shouqiang, et al. Multi-feature fusion based on semantic understanding attention neural network for Chinese text categorization[J]. Journal of Electronics &Information Technology, 2018, 40(5): 1258–1265. doi: 10.11999/JEIT170815
    GUPTA A, VEDALDI A, and ZISSERMAN A. Synthetic data for text localisation in natural images[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2315–2324.
    LIU Yuliang, JIN Lianwen, ZHANG Shuaitao, et al. Curved scene text detection via transverse and longitudinal sequence connection[J]. Pattern Recognition, 2019, 90: 337–345.
    CH’NG C K and CHAN C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]. The 2017 14th IAPR International Conference on Document Analysis and Recognition, Kyoto, Japan, 2017: 935–942.
    YAO Cong, BAI Xiang, LIU Wenyu, et al. Detecting texts of arbitrary orientations in natural images[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 1083–1090.
    BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9357–9366.
    XUE Chuhui, LU Shijian, ZHANG Wei. MSR: Multiscale shape regression for scene text detection[C]. KRAUS S. The 28th International Joint Conference on Artificial Intelligence, Macao, China, 2019: 989–995.
    XU Yongchao, WANG Yukang, ZHOU Wei, et al. Textfield: Learning a deep direction field for irregular scene text detection[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5566–5579.
    MA Jianqi, SHAO Weiyuan, YE Hao, et al. Arbitraryoriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111–3122.
    LIU Zichuan, LIN Guosheng, YANG Sheng, et al. Learning markov clustering networks for scene text detection[C]. 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6936–6944.
    TIAN Zhi, HUANG Weilin, HE Tong, et al. Detecting text in natural image with connectionist text proposal network[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 56–72.
  • 加载中
图(7) / 表(4)
计量
  • 文章访问数:  1326
  • HTML全文浏览量:  441
  • PDF下载量:  96
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-10-16
  • 修回日期:  2021-01-29
  • 网络出版日期:  2021-02-05
  • 刊出日期:  2021-04-20

目录

/

返回文章
返回