Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

双向特征融合的快速精确任意形状文本检测

边亮 屈亚东 周宇

吴卫华, 江晶, 冯讯, 刘重阳. 基于高斯混合势化概率假设密度的脉冲多普勒雷达多目标跟踪算法[J]. 电子与信息学报, 2015, 37(6): 1490-1494. doi: 10.11999/JEIT141232
引用本文: 边亮, 屈亚东, 周宇. 双向特征融合的快速精确任意形状文本检测[J]. 电子与信息学报, 2021, 43(4): 931-938. doi: 10.11999/JEIT200880
Wu Wei-hua, Jiang Jing, Feng Xun, Liu Chong-yang. Multi-target Tracking Algorithm Based on GaussianMixture Cardinalized Probability Hypothesis[J]. Journal of Electronics & Information Technology, 2015, 37(6): 1490-1494. doi: 10.11999/JEIT141232
Citation: Liang BIAN, Yadong QU, Yu ZHOU. Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes[J]. Journal of Electronics & Information Technology, 2021, 43(4): 931-938. doi: 10.11999/JEIT200880

双向特征融合的快速精确任意形状文本检测

doi: 10.11999/JEIT200880
详细信息
    作者简介:

    边亮:男,1982年生,博士生,研究方向为图像获取与处理

    屈亚东:男,1998年生,硕士生,研究方向为场景图像文字合成、检测与识别

    周宇:男,1992年生,博士生,研究方向为场景图像文字合成、检测与识别

    通讯作者:

    边亮 askquestionbl@163.com

  • 中图分类号: TN911.73

Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes

  • 摘要: 现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低。为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型。首先,该文构造特征提取器对输入图像提取多尺度特征图。其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化。之后,该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本。其中前者可以保证不同的文本实例之间具有区分性,而后者能有效地指导网络优化。最后,为了提升文本检测的速度,该文提出一个快速且有效的后处理算法来生成文本边界框。实验结果表明:在相关数据集上,该文所提出的方法均实现了最好的效果,且比目前最好的方法在F-measure指标上最多提升了1.0%,并且可以实现将近实时的速度,充分证明了该方法的有效性和高效性。
  • 压缩感知(Compressed Sensing, CS)是一种探寻欠定线性系统稀疏解的技术,用于获取和重构稀疏或可压缩的信号。该方法利用信号稀疏的特性,在远小于Nyquist采样率的条件下,用随机采样获取信号的离散样本,通过非线性重建算法完美地重建信号[1]。压缩感知理论基于信号的可压缩性,通过低维空间、低分辨率和欠Nyquist采样数据的非相关观测来实现高维信号的感知,丰富了信号恢复的优化策略,促进了数学理论和工程应用的结合。

    常见的压缩感知算法包括:匹配追踪(Matching Pursuit, MP)算法[2]、迭代阈值(Iterative Hard Thresholding, IHT)算法[3]和全变分(Total Variation, TV)算法[4]等。以上算法中,TV算法具有较高的重构精度和所需测量值较少的特点,并且能够很好地保留图像的边缘信息,但由于基于变分过程,往往会导致严重的阶梯效应,使图像纹理出现缺失而过度平滑。Zhang等人[5]结合TV算法和非局部正则化提出了基于非局部正则化的全变分(Total Variation based on Nonlocal Regularization, TVNR)算法,增强了图像的细节纹理,但该算法复杂度高,计算时间长,不适用实时处理。刘亚男等人[6]将分数阶微分作为正则化项,提出了分数阶全变分(Fractional Order Total Variation, FOTV)算法,在低频分量损失有限的情况下大幅度增加高频分量,由低分辨率图像重构得到纹理细节较清晰的高分辨率图像,但Ma等人[7]的研究指出,在图像信号中噪声和结构信息均属于高频成分,因此FOTV在提升图像细节的同时也放大了加性噪声,导致了该算法在噪声环境下失效,缩小了该算法的实际应用范围。目前针对抗噪声性能的研究工作主要集中在具体实验装置改进[8,9]或测量矩阵的优化上[10,11],大多数图像重构算法仅考虑了无噪声条件下的图像重构[12,13],而兼顾图像重构和抗噪声性能的算法报道较少[14]。在实际成像系统中,具有较好抗噪声性能的图像重构算法能有效地提高图像重构的质量,并且能够为单像素成像等计算成像实验系统的图像重构提供较好的解决方案。

    本文较详细地分析了分数阶微分模型和高斯平滑滤波的原理,结合Li等人[15]提出的增广拉格朗日交替方向算法,给出了一种基于高斯平滑压缩感知分数阶全变分(Fractional Order Total Variation based on Gaussian Smooth, FOTVGS)算法。在求解优化目标函数的过程中,使用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)[16]将优化目标函数划分为两个子问题进行求解,并使用高斯平滑滤波算子更新拉格朗日梯度算子,改进了FOTV的抗噪声性能,使FOTV具有良好的鲁棒性。

    对满足狄利克雷条件的函数,其傅里叶变换为

    F(w)=+f(t)ejwtdt (1)

    利用傅里叶变换的微分性质

    Dαf(t)FT(jw)αF(w)=dα(w)F(w) (2)

    其中,dα(w)=(jw)α=λα(w)ejθα(w),幅频特性函数为λα(w)=|w|α,相频特性函数为θα(w)=απ/2sgn(w),即分数阶微分算符为线性时不变系统,在不同阶次(1α2)下的分数阶微分算子的幅频特性如图1所示。

    图 1  分数阶次α对信号幅频特性的影响

    为简要说明分数阶次α对信号幅频特性的影响,图1中低频和高频均被归一化,0.5~1.0 Hz表示低频区,1.0~1.5 Hz表示高频区,随着分数阶次α增大,分数阶微分算子对高频分量的幅度拉升作用逐渐增强,呈现出非线性增长,同时对低频分量的幅度有一定的抑制作用。为了提高信号的高频分量,同时使得低频信息不至于损失过多,一般选取1~2之间的阶数。本文以0.1为间隔,经过多次经验验证,当α=1.7时,重构的图像能获得最佳的峰值信噪比(Peak Signal to Noise Ratio, PSNR)和结构相似度(Structural SIMilarity, SSIM),为此本文采用α=1.7

    高斯平滑是一种线性平滑滤波,利用2维高斯分布函数生成高斯模板,扫描图像中的每一个像素,将邻域内像素的加权平均值作为新图像中模板中心位置的像素值。2维高斯滤波使用高斯核为xy两个1维高斯核的乘积,其形式如式(3)

    G(x,y)=12πσ2exp(x2+y22σ2) (3)

    本文利用其去噪特性,结合拉格朗日交替方向算法,改进分数阶全变分算法,增强了算法的抗噪声性能。其中,高斯平滑的过程如式(4)

    G(i,j)=k,lf(i+k,j+l)×h(k,l) (4)

    其中,h为高斯核函数,也称为权值。

    利用自然图像具有梯度最小化的先验信息,通过研究自然图像在梯度域的稀疏性,传统的全变分算法为

    min|Du|,y=Au (5)

    为减小梯度效应,结合分数阶微分,式(5)转化为

    min|Dαu|,y=Au (6)

    其中,D=[Dv,Dh]分别代表垂直和水平分数阶微分算子,ARM×N为投影矩阵,u为原始图像,y为测量值。由于原优化问题带有约束,并且不可微分。引入中间变量w,式(6)等价于式(7)

    minw,uw1,w=Dαu,y=Au (7)

    构建拉格朗日函数,将有约束的优化问题转换为无约束的优化问题

    L(w,u)=minw,uw1νT(Dαuw)+β2Dαuw22λT(Auy)+γ2Auy22 (8)

    其中,βγ为惩罚因子,νλ为拉格朗日梯度算子。利用增广拉格朗日方法迭代求解问题式(9)、式(10)来进一步求解无约束问题式(8)

    (wk+1,uk+1)=argminL(w,u) (9)
    ν(k+1)=ν(k)β(w(k+1)Dαν(k+1))ν(k+1)=Gν(k+1)λ(k+1)=λ(k)γ(yAu(k+1))} (10)

    从式(10)可知,在每次更新ν时,使用高斯平滑滤波算子G更新拉格朗日梯度算子,以起到滤除分数阶微分造成的加性噪声高频分量增加部分。

    式(8)由于其不可微分,很难得到解析解,本文采用ADMM方法将原始问题转化成若干个子问题并逐一求解。

    (1) w子问题。对于给定u,经过简化后,与w有关的优化问题表示为

    wk+1=minww1νT(wDαu)+β2wDαu22 (11)

    根据2D shrinkage-like定理[17],式(11)的封闭形式为

    w(k+1)=max{|Dαuνβ|1β,0}×sgn(Dαuνβ) (12)

    (2)u子问题。通过式(12)得到了w的情况下,求解子u问题等价于式(13),其中w已经由上述w子问题求得,视为定值

    uk+1=minu{νT(Dαuw)+β2Dαuw22λT(Auy)+γ2Auy22} (13)

    式(13)是一个2次方程,其离散梯度d可被简化为d=DαT(βDαuνβw)+AT(γ(Auy)λ),令 d=0得到式(13)的解析解为

    uk+1=H1(DαTν+ATλ+γATy+βDαTw) (14)

    其中,H=(βDαTDα+γATA),考虑到Moore-Penrose广义逆求解在数值计算上计算成本过高,因此,这里采用具有最优步长的最速梯度下降方法,通过式(15)和式(16)进行迭代求解

    uk+1=ukηkdk (15)
    dk=iβi(Dαi)T(Dαiuwk+1i)(Dαi)Tνi)+γAT(Auy)ATλ (16)

    其中,ηk=abs(dTd/dTHd)表示Barzilai-Borwein步长因子,dk表示梯度,通过反复迭代,可以求出uk+1

    解决wu两个子问题,得到每次迭代中的wu,然后通过式(10),更新拉格朗日算子νλ。再继续回到上述两个子问题更新下一次的wu,如此迭代,便可用较少的测量值重构出完整的图像。具体算法如表1

    表 1  改进算法流程
     输入:测量矩阵A,测量值y,相关参数ν, λ, β, γ, α
     初始化:u=ATy, ν=0, λ=0, β=26, γ=27, α=27
     While (目标函数式(8)未达到最优解) do
       While u(k+1)uk2ε do
         利用式(12)求解w子问题
         利用式(13)求解u子问题
       End while
     利用式(10),使用高斯平滑滤波算子G更新拉格朗日梯度算子
     使用式(4),将输入图像的像素值作为权重,乘以相关核
     将上面各步得到的结果相加后输出
     End while
     输出:恢复的图像u
    下载: 导出CSV 
    | 显示表格

    仿真数据源选取斯坦福大学和南加州大学图像库的4幅像素为256×256的图像(Lena, Boats, Barbara, Peppers)作为原始图像,如图2所示。

    图 2  实验原始图

    通过仿真实验,在不同采样率和不同的加性噪声下,将5种算法进行定性和定量对比。本实验中,测量矩阵采用高斯随机矩阵,分数阶次α为1.7,相关参数βγ的初始化根据Li等人的经验,分别设定为26, 27。迭代截止条件等其他参数根据个人经验值设定。实验使用的硬件配置为四核Intel®Core(TM)i53317U CPU@1.70 GHz的PC端,仿真软件采用MATLAB R2018b。

    本文利用高斯平滑算子更新拉格朗日梯度算子,抑制分数阶微分对噪声的放大。图3给出了在采样率为0.1, SNR=10 dB时,加入高斯平滑算子前后,Barbara图像的梯度算子ν的变化对比图。在迭代过程中,梯度算子ν共更新了12次,本文选取了5次作为实验对比图。

    图 3  高斯平滑算子加入前后,梯度算子更新变化对比图

    图3所示,随着算法的迭代进行,算子ν包含的图像梯度信息逐渐增多,同时弥漫在梯度算子上的噪声也随之增大,通过对比图3(a)图3(b),特别是第2次和第4次迭代,可以发现在加入高斯平滑后,能有效地抑制分数阶微分对噪声的放大,从而提高重构精度。

    本研究组在实际单像素成像系统中,将实验时外界的环境噪声和器件的热噪声等效成图像测量值的加性高斯白噪声模型,测量值的SNR变化范围为10~35 dB,本文仿真了5种算法在不同采样率和测量值无噪声与有噪声情况下的图像重构PSNR,通过10次测量求平均PSNR,结果如表2

    表 2  在无噪声(测量值SNR=)和有噪声情况下5种算法图像重构峰值信噪比(PSNR: dB)
    采样率0.10.2
    SNR (dB)10202530351020253035
    BarbaraTV12.5316.2618.7719.3920.4322.0613.6217.2519.8320.4821.6624.12
    TVNR13.5016.7318.9219.8321.5323.0614.5417.8220.2321.5622.2325.05
    FOTV10.8315.5516.3918.2819.8624.3512.9116.7718.1019.2420.0425.56
    TVGS13.1016.5718.4318.7620.0421.5314.1217.7319.9419.5220.6223.21
    FOTVGS14.3217.9319.1720.3622.3025.2815.2518.3720.7722.1023.3126.35
    LenaTV16.6520.4822.5323.9624.0325.2918.3322.1023.4325.2426.9428.42
    TVNR17.8721.4223.1024.4025.1526.3419.5423.0324.9326.9427.5528.93
    FOTV15.9319.4021.5822.7823.4427.8117.2121.2222.3024.1925.1229.38
    TVGS17.2820.9822.7823.5223.8724.7218.8822.7424.2325.1426.2128.02
    FOTVGS18.6922.5924.4125.4226.4627.9320.3924.4725.3827.5828.2030.77
    BoatsTV14.7518.5820.1321.3022.5123.2115.5719.3821.0022.9124.2826.66
    TVNR15.9319.7420.9921.9423.0123.7516.5520.3422.8823.6524.8727.12
    FOTV13.5117.3718.8920.8621.3924.6014.2118.7520.7821.9323.9327.86
    TVGS15.3319.0020.2321.0222.0623.0116.0219.9321.2122.8224.0126.03
    FOTVGS17.1020.8622.3723.5524.3725.4617.8223.2624.6925.1526.8428.69
    PeppersTV16.6620.5121.1922.5423.5324.0317.8921.7523.2424.6525.3026.06
    TVNR17.5221.7922.3623.1124.0024.7818.7723.2324.8825.9426.2327.83
    FOTV15.7519.1320.2321.4722.7225.6616.5120.9622.4123.7124.5128.41
    TVGS17.2121.5521.2422.3123.1723.8418.2522.5523.9424.7125.0225.87
    FOTVGS18.6322.3523.7924.4725.3226.3319.5424.7725.4426.1127.3228.88
    采样率0.30.4
    SNR (dB)10202530351020253035
    BarbaraTV14.6918.5521.0522.5023.4026.3316.5520.4523.6424.9825.9028.11
    TVNR15.7719.4921.9723.8724.5827.3317.6322.3724.5325.7826.4529.49
    FOTV13.9318.5619.0421.5122.5427.9515.3419.2422.2123.4824.2429.98
    TVGS15.4319.0321.2422.4723.2126.0017.2121.2324.0125.0725.7927.91
    FOTVGS16.8320.3622.4524.3425.1428.5718.5623.6625.4926.0327.8630.47
    LenaTV19.4123.9025.7227.4228.0131.1421.3125.8027.8629.7330.0132.62
    TVNR21.3225.4526.1128.0129.2131.9522.4126.9728.9930.0131.5233.43
    FOTV18.3322.9724.5025.9327.1832.6620.4524.8525.0627.1129.9934.53
    TVGS20.7824.3525.9627.5127.9430.9922.1726.6527.9929.7029.8832.39
    FOTVGS22.4526.3627.6929.0230.0333.1023.5827.5129.7331.4832.8935.36
    BoatsTV17.8823.0124.1925.2726.5528.3519.2325.3626.0027.4128.2829.87
    TVNR19.5324.9425.2426.4527.1428.8320.8226.6527.2128.7729.5630.29
    FOTV17.0222.9423.1224.5625.5129.2518.8824.1625.7826.0327.6430.68
    TVGS18.7724.6824.2325.1026.3528.0120.5926.1826.5527.4628.0029.51
    FOTVGS20.4525.4926.2227.1828.0329.6721.9627.4228.6929.1530.2431.43
    PeppersTV18.6123.4024.2225.0426.7427.9619.9724.0625.6126.9728.1629.71
    TVNR19.9324.8225.9626.9227.7128.3221.3225.3626.9927.9828.7229.92
    FOTV17.4420.6722.5824.2325.3529.1118.5423.6624.9726.0527.1430.51
    TVGS19.6624.5424.4225.0226.4527.3120.8625.8825.9726.8729.0329.41
    FOTVGS21.2325.3526.7927.4728.8929.4222.3926.7727.4428.3529.1130.89
    下载: 导出CSV 
    | 显示表格

    表2可知,在相同的采样率下,本文所提FOTVGS算法有最大的PSNR。在无噪声(SNR=)情况下,通过对4幅图像在不同采样率下的PSNR求平均,FOTVGS算法相比于文献[6]中的FOTV算法平均PSNR提高0.66 dB,最大提高1.39 dB。在噪声(SNR为10~35 dB)情况下,对比于只含高斯平滑的全变分(Total Variation with Gaussian Smooth, TVGS)算法,在大噪声情况(SNR<25 dB),文献[4]中的TV算法会受到噪声干扰导致性能差于TVGS算法,而在小噪声情况下(SNR>25 dB)TV算法性能要好于TVGS算法,根据经验判断,可能是大噪声情况下,平滑算子去除的噪声较多,而小噪声情况下,平滑算子使图像过于平滑导致细节丢失。与无噪声情况下的结果相反,在噪声环境下,FOTV算法受噪声影响较大,文献[5]提出的TVNR算法性能好于FOTV算法,FOTV算法是最差的图像重构算法,而改进的FOTVGS算法却弥补了该算法的缺陷。通过对4幅图像在不同采样率下和不同测量噪声情况下求平均,给出的FOTVGS算法相比于FOTV算法平均PSNR提高3.11 dB,最大提高4.68 dB。

    图4展示了在采样率为0.2时无噪声(SNR=),测量值的SNR=25 dB以及采样率为0.1,测量值SNR=10 dB时3种情况下的5种算法对标准Lena图像的重构。

    图 4  无噪声和噪声环境下重构对比图

    图4(a)图4(d)显示了在无噪声情况下,5种算法重构图像纹理细节对比,由每幅子图的右下角展示的帽子环带的放大图可以看出,对比于FOTV算法,给出的FOTVGS算法在图像纹理细节上与其相近,甚至比其有更多的纹理细节。图4(f)图4(j)展示了在测量值SNR=25 dB时5种算法重构的图像弥漫着形似椒盐噪声的噪声点,分数阶微分对噪声高频成分的放大作用导致FOTV算法具有最大的噪声值。本文给出的FOTVGS算法所重构的图像相比其他4种算法具有较小的噪声和较多的纹理细节,可见,FOTVGS算法有较强的抗噪声性能。图4(k)图4(o)展示了在测量值SNR=10 dB和采样率为0.1时,5种算法的图像重构对比,在此种极端情况下,FOTV算法重构的图像噪声点较多,TVGS算法虽然噪声较小,但同时也导致了图像过于平滑,如图4中帽子环带信息缺失,从中可以看到改进的FOTVGS算法图像重构效果要好于其他4种,这与表2中给出的图像评价指标一致。

    图5给出了在采样率为0.2情况下,5种算法在不同的噪声水平下的结构相似度(SSIM)变化值,其中测量值的SNR变化范围为10~35 dB。图中可知,在采样率为0.2的情况下,5种算法重构图像的SSIM随着噪声的增加逐渐减小。在相同的SNR下,FOTV算法有最小的SSIM,表明该算法不适合有噪声情况,本文改进的FOTVGS算法有最大的SSIM,说明该算法提高了原算法(FOTV)的抗噪声性能。

    为定量对比5种算法的算法复杂度,图6给出了5种算法在无噪声和噪声环境下(SNR变化范围10~35 dB)的平均图像重构时间对比图。

    图6可知,与FOTV算法相比,改进的FOTVGS算法在不增加过多的处理时间的情况下,具有FOTV算法提高图像纹理细节的特性同时克服了其较差的抗噪声性能。

    本文详细分析了分数阶全变分和高斯平滑的数学模型,给出的FOTVGS算法解决了FOTV算法引起的梯度效应导致的图像纹理细节丢失和FOTV算法抗噪声性能较差的问题。文中对该算法进行了详细的分析,采用ADMM算法求解,给出了具体的求解过程,在求解过程中采用高斯平滑算子更新拉格朗日梯度算子,在较好地保留图像纹理细节的同时提高了原有算法的抗噪声性能。在算法时间复杂度方面,改进的算法在不增加过多图像重构时间的基础上,增强了图像重构的纹理细节。因此,该算法为单像素成像等计算成像的实际成像系统提供了行之有效的图像重构方法。

    图 5  采样率为0.2情况下5种算法的重构SSIM曲线
    图 6  无噪声和噪声环境下5种算法在不同采样率下平均重构时间对比图
  • 图  1  双向特征融合模块内部网络示意图

    图  2  网络结构图

    图  3  标签生成示意图

    图  4  检测的最终结果

    图  5  不同方法在3个数据集上的速度-精度对比

    图  6  不同数据集模型的测试结果可视化图

    图  7  模型检测错误的一些例子

    表  1  双向特征融合模块及整体文本框分支在不同基础网络下的性能增益及检测效率

    基础网络双向特征
    融合模块
    整体文本区
    域预测分支
    评价指标(%)FPS
    准确率召回率F综合指标
    ResNet-50××87.482.785.017.4
    ResNet-50×87.883.185.416.8
    ResNet-5088.083.585.716.0
    ResNet-18××86.679.883.131.0
    ResNet-18×85.980.883.330.5
    ResNet-1886.581.283.829.6
    下载: 导出CSV

    表  2  TotalText数据集模型性能对比

    方法评价指标(%)FPS
    准确率召回率F综合指标
    EAST*[12]36.250.042.0
    TextSnake[2]74.582.778.4
    MSR[21]74.883.879.04.3
    PSENet-1s[7]78.084.080.93.9
    Textfield[22]81.279.980.66
    LOMO[13]87.679.383.3
    CRAFT[20]87.679.983.6
    DB[9]87.182.584.732
    本文方法88.083.585.716
    下载: 导出CSV

    表  3  MSRA-TD500数据集模型性能对比

    方法评价指标(%)FPS
    准确率召回率F综合指标
    RRPN[23]82.068.074.0
    MCN[24]88.079.083.0
    PixelLink[6]83.073.277.83.0
    TextSnake[2]83.273.978.31.1
    CRAFT[20]88.278.282.98.6
    Tian等人[32]84.281.782.9
    DB[9]91.579.284.932.0
    本文方法91.181.385.917.1
    下载: 导出CSV

    表  4  CTW1500数据集模型性能对比

    方法评价指标(%)FPS
    准确率召回率F综合指标
    CTPN[25]60.453.856.97.14
    EAST[12]78.749.160.421.2
    Seglink[11]42.340.040.810.7
    TextSnake[2]67.985.375.61.1
    PSENet-1s[7]84.879.782.23.9
    Tian等人[3]77.882.780.13
    LOMO[13]69.689.278.44.4
    DB[9]86.980.283.422
    本文方法84.782.383.515.2
    下载: 导出CSV
  • 黄剑华, 承恒达, 吴锐, 等. 基于模糊同质性映射的文本检测方法[J]. 电子与信息学报, 2008, 30(6): 1376–1380.

    HUANG Jianhua, CHENG Hengda, WU Rui, et al. A new approach for text detection using fuzzy homogeneity[J]. Journal of Electronics &Information Technology, 2008, 30(6): 1376–1380.
    LONG Shangbang, RUAN Jiaqiang, ZHANG Wenjie, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 19–35.
    TIAN Zhuotao, SHU M, LYU P, et al. Learning shape-aware embedding for scene text detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 4229–4238.
    HUANG Weilin, QIAO Yu, and TANG Xiaoou. Robust scene text detection with convolution neural network induced MSER trees[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 497–511.
    JADERBERG M, VEDALDI A, and ZISSERMAN A. Deep features for text spotting[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 512–528.
    DENG Dan, LIU Haifeng, LI Xuelong, et al. Pixellink: Detecting scene text via instance segmentation[C]. The 32nd AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018: 6773–6780.
    WANG Wenhai, XIE Enze, LI Xiang, et al. Shape robust text detection with progressive scale expansion network[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9328–9337.
    XIE Enze, ZANG Yuhang, SHAO Shuai, et al. Scene text detection with supervised pyramid context network[C]. The 33rd AAAI Conference on Artificial Intelligence, Honolulu, USA, 2019: 9038–9045.
    LIAO Minghui, WAN Zhaoyi, YAO Cong, et al. Real-time scene text detection with differentiable binarization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11474–11481. doi: 10.1609/aaai.v34i07.6812
    LIAO Minghui, SHI Baoguang, and BAI Xiang. Textboxes++: A single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3676–3690. doi: 10.1109/TIP.2018.2825107
    SHI Baoguang, BAI Xiang, and BELONGIE S. Detecting oriented text in natural images by linking segments[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3482–3490.
    ZHOU Xinyu, YAO Cong, WEN He, et al. EAST: An efficient and accurate scene text detector[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2642–2651.
    ZHANG Chengquan, LIANG Borong, HUANG Zuming, et al. Look more than once: An accurate detector for text of arbitrary shapes[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 10544–10553.
    DAI Jifeng, QI Haozhi, XIONG Yuwen, et al. Deformable convolutional networks[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 764–773.
    谢金宝, 侯永进, 康守强, 等. 基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报, 2018, 40(5): 1258–1265. doi: 10.11999/JEIT170815

    XIE Jinbao, HOU Yongjin, KANG Shouqiang, et al. Multi-feature fusion based on semantic understanding attention neural network for Chinese text categorization[J]. Journal of Electronics &Information Technology, 2018, 40(5): 1258–1265. doi: 10.11999/JEIT170815
    GUPTA A, VEDALDI A, and ZISSERMAN A. Synthetic data for text localisation in natural images[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2315–2324.
    LIU Yuliang, JIN Lianwen, ZHANG Shuaitao, et al. Curved scene text detection via transverse and longitudinal sequence connection[J]. Pattern Recognition, 2019, 90: 337–345.
    CH’NG C K and CHAN C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]. The 2017 14th IAPR International Conference on Document Analysis and Recognition, Kyoto, Japan, 2017: 935–942.
    YAO Cong, BAI Xiang, LIU Wenyu, et al. Detecting texts of arbitrary orientations in natural images[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 1083–1090.
    BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9357–9366.
    XUE Chuhui, LU Shijian, ZHANG Wei. MSR: Multiscale shape regression for scene text detection[C]. KRAUS S. The 28th International Joint Conference on Artificial Intelligence, Macao, China, 2019: 989–995.
    XU Yongchao, WANG Yukang, ZHOU Wei, et al. Textfield: Learning a deep direction field for irregular scene text detection[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5566–5579.
    MA Jianqi, SHAO Weiyuan, YE Hao, et al. Arbitraryoriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111–3122.
    LIU Zichuan, LIN Guosheng, YANG Sheng, et al. Learning markov clustering networks for scene text detection[C]. 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6936–6944.
    TIAN Zhi, HUANG Weilin, HE Tong, et al. Detecting text in natural image with connectionist text proposal network[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 56–72.
  • 加载中
图(7) / 表(4)
计量
  • 文章访问数:  1331
  • HTML全文浏览量:  448
  • PDF下载量:  96
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-10-16
  • 修回日期:  2021-01-29
  • 网络出版日期:  2021-02-05
  • 刊出日期:  2021-04-20

目录

/

返回文章
返回