Scene Text Detection Based on High Resolution Extended Pyramid
-
摘要: 文本检测作为计算机视觉领域一项重要分支,在文字翻译、自动驾驶和票据信息处理等方面具有重要的应用价值。当前文本检测算法仍无法解决实际拍摄图像的部分文本分辨率低、尺度变化大和有效特征不足的问题。针对上述待解决的问题,该文提出一种基于高分辨扩展金字塔的场景文本检测方法(HREPNet)。首先,构造一种改进型特征金字塔,引入高分辨扩展层和超分辨特征模块,有效增强文本分辨率特征,解决部分文本分辨率低的问题;同时,在主干网络传递特征过程中引入多尺度特征提取模块,通过多分支空洞卷积结构与注意力机制,充分获取文本多尺度特征,解决文本尺度变化大的问题;最后,提出高效特征融合模块,选择性融合高分辨特征和多尺度特征,从而减少模型的空间信息的丢失,解决有效特征不足的问题。实验结果表明,HREPNet在公开数据集ICDAR2015, CTW1500和Total-Text上综合指标F值分别提高了6.0%, 4.4%和2.5%,在准确率召回率上都得到显著提升;此外,HREPNet对不同尺度和分辨率的文本检测效果均有明显提升,对小尺度和低分辨率文本提升尤为显著。Abstract:
Objective Text detection, a critical branch of computer vision, has significant applications in text translation, autonomous driving, and ticket information processing. Although existing text detection methods have improved detection performance, several challenges remain in complex natural scenes. Scene text exhibits substantial scale variations, making multi-scale text detection difficult. Additionally, inadequate feature utilization hampers the detection of small-scale text. Furthermore, increasing the receptive field often necessitates reducing image resolution, which results in severe spatial information loss and diminished feature saliency. To address these challenges, this study proposes the High-Resolution Extended Pyramid Network (HREPNet), a scene text detection method based on a high-resolution extended pyramid structure. Methods First, an improved feature pyramid was constructed by incorporating a high-resolution extension layer and a super-resolution feature module to enhance text resolution features and address the issue of low-resolution text. Additionally, a multi-scale feature extraction module was integrated into the backbone network to facilitate feature transfer. By leveraging a multi-branch dilated convolution structure and an attention mechanism, the model effectively captured multi-scale text features, mitigating the challenge posed by significant variations in text scale. Finally, an efficient feature fusion module was proposed to selectively integrate high-resolution and multi-scale features, thereby minimizing spatial information loss and addressing the problem of insufficient effective features. Results and Discussions Ablation experiments demonstrated that the simultaneous application of HREP, Multi-scale Feature Extraction Module (MFEM) and Efficient Feature Fusion Module (EFFM) significantly enhanced the model’s text detection performance. Compared with the baseline, the proposed method improved accuracy and recall by 5.3% and 6.6%, respectively, while increasing the F-measure by 6.0%. These improvements can be attributed to MFEM, which enhances multi-scale text detection, facilitates efficient feature transmission from the top to the bottom of the high-resolution extended pyramid, and supports the extraction of text features at different scales. This process enables HRFP to generate high-resolution features, thereby substantially improving the detection of low-resolution and small-scale text. Moreover, the large number of feature maps generated by HREP and MFEM are refined through EFFM, which effectively suppresses spatial redundancy and enhances feature expression. The proposed method demonstrated significant improvements in detecting text across different scales, with a more pronounced effect on small-scale text compared to large-scale text. Visualization results illustrate that, for small-scale text images (384 pixels), the detected text box area of the proposed method aligns more closely with the actual text area than that of the baseline method. Experimental results confirm that HREPNet significantly improves the accuracy of small-scale text detection. Additionally, for large-scale text images (2,048 pixels), the number of correctly detected text boxes increased considerably, demonstrating a substantial improvement in recall for large-scale text detection. Comparative experiments on public datasets further validated the effectiveness of HREPNet. The F-measure improved by 6.0% on ICDAR2015, 4.4% on CTW1500, and 2.5% on Total-Text, with significant enhancements in both precision and recall. Conclusions To address challenges related to large-scale variation, low resolution, and insufficient effective features in natural scene text detection, this study proposes a text detection network based on a High-Resolution Extended Pyramid. The High-Resolution Extended Pyramid is designed with the MFEM and the EFFM. Ablation experiments demonstrate that each proposed improvement enhances text detection performance compared with the baseline model, with the modules complementing each other to further optimize model performance. Comparative experiments on text images of different scales show that HREPNet improves text detection across various scales, with a more pronounced enhancement for small-scale text. Furthermore, experiments on natural scene and curved text demonstrate that HREPNet outperforms other advanced algorithms across multiple evaluation metrics, exhibiting strong performance in both natural scene and curved text detection. The method also demonstrates robustness and generalization capabilities. However, despite its robustness, the model has a relatively large number of parameters, which leads to slow inference speed. Future research will focus on optimizing the network to reduce the number of parameters and improve inference speed while maintaining accuracy, recall, and F-measure. -
1. 引言
文本检测目的是定位出自然场景图像中的文本实例。作为计算机视觉领域不可或缺的一部分,文本检测在文字翻译、自动驾驶和票据信息处理等场景具有重要的应用价值[1,2]。然而,文本实例分辨率的不确定性和尺度的变化性等实际情况为该任务带来了巨大的挑战。
传统自然场景文本检测算法主要分为基于连通域分析的方法[3,4]和基于滑动窗口的方法[5,6]。其中,基于连通域分析的方法面临的问题为:不同自然场景下的检测结果差距过大,复杂场景严重影响文本区域检测,从而造成错检;基于滑动窗口的方法面临的问题为:对滑动窗口依赖性极大,但窗口形状、大小和步长等设置较为困难,在复杂自然场景中鲁棒性和通用性较差。深度学习领域的自然场景文本检测的方法可分为3个方向,分别是基于回归的方法、基于分割的方法和其它文本检测方法。
基于回归的方法大多数是将文本检测视为目标检测的特殊应用场景,在通用的目标检测算法基础上进行改进。Tian等人[7]提出的连接文本建议网络(Connectionist Text Proposal Network, CTPN)可以在复杂场景中能够高效地检测横向文本行;Bark 等人[8]提出的字符区域感知文本检测网络(Character Region Awareness For Text detection, CRAFT)通过提取字符之间的关联性来有效地检测文本区域。He等人[9]提出的多方向场景文本检测网络(Multi-oriented Scene Text detector, MOST)通过引入位置感知非极大值抑制模块,有效解决对极长的文本实例的几何预测不精确的问题。基于回归的方法具有简单的后处理过程,但对于复杂场景下多尺度的文本或者弯曲文本难以得到平滑的文本包围曲线。
基于分割的方法通常首先进行特征提取与多级特征融合处理,然后通过对像素分类来判断像素是否属于文本区域范围;Deng等人[10]提出通过实例分割检测场景文本算法 (PixelLink),该算法根据像素连接将属于同一个文本实例的区域进行分割,再从分割区域提取出最终文本边界框;Wang 等人[11]在渐进式尺度扩展网络(Progressive Scale Expansion Network, PSENet)中提出渐进式尺度扩展算法,此算法为图像中每个文本实例生成不同大小的内核,再逐渐根据每个文本实例的最小内核扩展为完整形状的文本边界框;Liao等人 [12]提出可微分二值化网络(Differentiable Binarization Network, DBNet),通过可微分二值化模块,可以自适应的设置二值化的阈值,从而简化后处理过程,以此提高文本检测的性能。
基于回归的方法不能很好地处理极端尺寸的文本,基于分割的方法存在复杂的后处理步骤,因此还存在其它文本检测方法用于解决上述问题。Zhang等人[13]在多次渐进定位文本检测网络(Look more than once, LOMO)中引入角点注意力,提升了对长文本的检测效果;Dai等人[14]提出的渐进式轮廓回归网络(Progressive contour regression, PCR)对区域建议的轮廓点进行均匀采样,根据点的位置信息和语义信息预测点的偏移得到新的轮廓框,再重新进行轮廓检测,采用轮廓得分进行指导,避免了冗余点或噪声点对文本轮廓的影响;Zhu等人[15]提出的傅里叶轮廓嵌入网络(Fourier contour embedding, FCE)采用傅里叶变换区域提议轮廓的采样点变换到傅里叶域,计算该文本区域像素的傅里叶特征向量,对采样点通过傅里叶特征向量逆变换到空间域,得到密集的文本轮廓点序列,从而使文本框更为紧凑;Zhang等人[16]提出的基于transformer文本检测网络(Arbitrary Shape Text Detection via Boundary Transformer, BPN++)和Ye等人[17]提出的动态点文本检测转换网络(Dynamic Point Text DEtection TRansformer network, DPText-DETR)采用了两阶段检测的方案,虽然提高了检测精度,但复杂的解码和编码方法,显著降低了检测的效率。
虽然上述深度学习检测算法一定程度的提高了文本检测的性能,但在复杂的自然场景中仍然存在很多尚未解决问题[18,19]:场景文本尺度变化大,目前方法对多尺度文本检测困难;特征利用不充分,导致小尺度文本无法检测;为增大感受野导致图像分辨率降低,从而使得空间信息丢失严重和特征显著性降低。
针对上述问题,本文提出基于高分辨扩展金字塔的场景文本检测网络(High Resolution Extended Pyramid Network, HREPNet)。本网络首先提出高分辨扩展金字塔(High Resolution Extended Pyramid, HREP),引入高分辨扩展层和超分辨模块,缓解部分文本分辨率低的问题。同时,在多尺度特征提取模块(Multi-scale Feature Extraction Module, MFEM)中设计多分支空洞卷积结构,显著了提高网络对于场景文本多尺度特征的利用。最后,高效特征融合模块(Efficient Feature Fusion Module, EFFM)选择性融合特征图,通过改善空间信息的丢失,以此提升网络对场景文本的检测能力。
2. 基本原理
2.1 网络整体框架
本文构建的HREPNet网络框架如图1所示。首先,HREPNet使用ResNet50[20]作为主干网,以减少发生梯度爆炸和梯度消失的现象。随后,在主干网后构造HREP,在特征金字塔网络(Feature Pyramid Network, FPN)的基础上引入高分辨扩展层和超分辨模块,缓解部分文本由于尺度小和分辨率低造成的漏检现象;同时,在主干网C2阶段后引入MFEM,通过多分支空洞卷积与注意力机制相结合的设计,提升网络的多尺度特征检测能力;然后,将HREP和MFEM处理后的特征全部输入EFFM中,选择性融合高分辨特征和多尺度特征,从而改善模型的空间信息的丢失;最后,利用渐进式扩展算法得到完整的文本实例。
2.2 高分辨扩展金字塔
特征金字塔(Feature pyramid network, FPN)[21]的作用是将主干网不同阶段输出的特征图进行融合。由扩展特征金字塔网络(Extended feature pyramid network, EFPN)[22]中的实验可知,FPN中不同层级代表不同尺度的文本特征,其中P5, P4, P3层代表大尺度的文本特征(分辨率为150pixels以上),P2代表中尺度(分辨率为50~150 pixels)和小尺度(分辨率低于50 pixels)的文本特征。此外,FPN的每个层级输出的特征通道数完全一致,因此仅有1/4的输出特征可以表示中尺度和小尺度特征,表明中小尺度特征图占有比例较小,影响后续高效特征融合模块对特征图的选择。上述情况严重影响了网络中小尺度和中尺度文本的特征表达,使网络对多尺度文本检测表现不佳。
为缓解对中小尺度文本检测困难的问题,受EFPN[22]的启发,本文设计并引入HREP。如图1所示,HREP共包含两部分内容,一部分为高分辨扩展层;另一部分为超分辨特征模块(Super-resolution Feature Module, SFM)。
2.2.1 高分辨扩展层
为获取更多有利于中小尺度文本的特征图,本文在FPN的基础上扩展出分辨率更高的特征层。如图1所示,FPN原有4个层级(P5~P2),按照自上而下的路径构建,其中P2由主干网ResNet50的阶段2生成。在主干网的阶段2中删除最大池化层,从而获得额外输出特征层C′2。C′2与C2相比分辨率更高,更有助于更好的定位小尺度文本。
此外,HREP中的P3和P2输入SFM模块中(具体细节见2.2.2节),生成具有区域信息的中间特征P′3。然后,将P′3尺寸放大1倍与C′2进行元素求和,最终生成扩展金字塔层P′2。在HREP中生成高分辨扩展层P′2的过程可以表示为
P′2=P′3↑2×+C′2 (1) 其中↑2×表示使用最近邻插值法进行特征图尺寸两倍方法。
2.2.2 超分辨特征模块
P2的噪声若直接传递到高分辨扩展层P′2 ,会严重影响文本特征的表达。基于上述情况,本文设计了超分辨特征模块(SFM),SFM不仅利用低分辨率特征P3合成了强语义特征,还利用高分辨率特征P2生成关键的局部细节特征。如图2所示,SFM的输入共包含两部分,分别为主要输入流(main)和参考输入流(reference)。
在主要输入流中,首先将特征图P3通过上下文信息提取器(Content Extractor, CE),获取P3层级丰富的上下文信息。然后,利用亚像素卷积(Sub-pixel Convolution, SConv)对特征图进行空间重构。亚像素卷积中的像素洗牌操作将特征F∈RH×W×C⋅r2重新排列成形状为rH×rW×C的特征图。在参考输入流中,参考特征P2和经过处理的P3输入到纹理信息提取器(Texture Extractor, TE)。纹理信息提取器的目的是挑选可信的纹理细节,用于小尺度文本检测和防止噪声干扰。SFM模块输出的特征图P′3具有从浅层特征参考P2中的可靠纹理细节和来自较深层次P3的语义信息。SFM模块的输出P′3可以表示为
P′3=Et(P2∪Ec(SConv(P3)))+Ec(SConv(P3)) (2) 其中,Et(⋅)表示纹理信息提取器,Ec(⋅)表示上下文信息提取器,SConv表示通过亚像素卷积将特征尺寸放大2倍,∪表示沿通道轴连接。
2.3 多尺度特征提取模块
受空间金字塔池化 (Atrous Spatial Pyramid Pooling, ASPP)[23]的启发,本文设计的多尺度特征提取模块(MFEM)采用多个不同的采样率的空洞卷积,并添加残差结构下的通道选择单元(Channel Selection Unit, CSU)和空间选择单元(Spatial Selection Unit, SSU),专门用于提取文本多尺度特征。如图3所示,MFEM的结构采用并行多分支结构,每个分支均采用 3×3 卷积,分别赋以 1, 2, 4 的膨胀系数,完成不同层级特征的提取和区分,更好实现多尺度文本的检测。SSU改变空间中每个通道的张量,并向不同的区域分配不同的权重,而CSU给每个通道分配不同的权重。
CSU对输入的特征F进行全局平均池化和全局最大池化,生成平均池化特征图和最大池化特征图。随后将两种特征图输入多层感知器(Multi-Layer Perceptron, MLP),并对输出进行逐元素求和。然后通过激活函数 sigmoid得到通道注意力特征权重Mc。最后,Mc与输入特征图对应元素相乘得到最终的通道注意力特征图F′。Mc的计算公式为
Mc=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (3) 其中,σ表示激活函数sigmoid,AvgPool表示全局平均池化,MaxPool表示全局最大池化。
CSU的输出特征F′作为SSU的输入特征,在通道轴上同时进行全局平均池化和全局最大池化。随后将两种池化结果沿通道轴连接,并经过7×7卷积和激活函数sigmoid,得到空间注意力特征权重Ms。最后,Ms与输入特征图对应元素相乘得到最终的空间注意力特征图。Ms的计算公式为:
Ms=σ(f7∗7([AvgPool(F′),MaxPool(F′)])) (4) 其中f7∗7表示7×7卷积操作。
2.4 高效特征融合模块
为提高HREP输出的多尺度特征和高分辨特征的表达,本文提出基于空间重构的高效特征融合模块(EFFM)。如图1所示,EFFM 由特征分离(Separate)和特征重构(Reconstruct)两部分构成,首先基于权重分离冗余特征[24](即代表性较弱的特征),再对分离后特征进行重构,选择性融合高分辨和多尺度特征,从而改善空间信息的丢失。
特征分离是将空间内容中信息丰富的特征图与信息量较少的特征图分离。首先,通过分组归一化(Group Normalization, GN)层中的缩放因子[25]来评估不同特征图的信息内容。输入特征X∈RN×C×H×W分组归一化的过程可以表示为
Xout=GN(X)=γX−μ√s2+e+β (5) 其中,μ表示输入特征的均值,s表示输入特征的标准差,e是极小的正常数,γ和β都是可训练的仿射变换参数。利用GN层中的可训练参数γ∈RC,测量出每个通道的空间像素的方差。参数γ越大,说明空间像素越明显,从而反映出含有丰富的空间信息。归一化的相关权重Nγ∈RC表明了不同特征图的重要性,该过程可以表示为
Nγ={ni}=γiC∑j=1γj,i,j=1,2,⋯,C (6) 然后,将相关权重Nγ通过sigmoid函数σ映射到(0,1)范围内,将阈值(Threshold)以上的权重值设置为1,以表示高信息权重W1;将阈值以下权重值设置为0,以表示非信息权重W2。获取信息权重Wi的过程可以表示为
Wi=Threshold(σ(Nγ(GN(X)))),i∈1,2 (7) 然后,将输入特征X对应乘以信息权重W1和W2,得到信息丰富的加权特征Xw1和信息较少的加权特征Xw2。此时,输入特征X被分为两部分:Xw1具有高信息性和高表达性的空间内容;Xw2只具有较少的信息,此部分被认为是冗余特征。
特征重构是对信息丰富特征Xw1和信息较少特征Xw2重构,以生成信息更丰富的特征并节省空间信息。首先,将Xw1和Xw2分别沿通道维度等比例划分为Xw11与Xw12和Xw21与Xw22。然后,受空间和通道重建卷积 (Spatial and channel reconstruction convolution, SCConv)[26]的启发,通过交叉重构充分结合不同的信息特征,加强特征之间的信息交互,Xw11与Xw22对应特征元素求和生成Xw1,Xw21与Xw12对应特征元素求和生成Xw2。最后,将交叉重构后的特征Xw1和Xw2沿通道轴连接,得到空间细化的特征图Xw。特征重构的完整过程表示为
Xw1=[Xw11,Xw12]Xw2=[Xw21,Xw22]Xw11⊕Xw22=Xw1Xw21⊕Xw12=Xw2Xw1∪Xw2=Xw} (8) 其中,⊗表示对应元素相乘,⊕表示对应元素求和,∪表示沿通道轴连接。EFFM不仅将信息丰富的特征与信息较少的特征分离,还增强代表性特征,抑制空间维度上的特征冗余。
3. 实验与结果分析
3.1 实验数据集
3.1.1 实验数据集
实验数据集共包含3个公共文本数据集ICDAR2015[27], CTW1500[28]和Total-Text[29]。以上3个公共数据集的制作团队已经对数据集对进行划分,分为训练数据集和测试数据集。
ICDAR2015[27]是一个被广泛应用的自然环境下的英文文本检测数据集,共有1 500幅图像,其中训练图像有1 000幅,测试图像有 500幅,该数据集的文本标注方式是四边形标注。
CTW1500[28]与传统文本数据集不同,每幅图像上至少包含1个弯曲文本行,该数据集边界框共有10 751个,共包含了曲线边界框3 530个,该数据集的文本行标注方式是采用14点的多点标注方式。
Total-Text[29]是一个新提出的自然场景下的弯曲文本数据集,该数据集包含水平、多方向和曲线文本实例,大部分为英文文本,少量中文文本,其中训练图像有1 255幅,测试图像有300幅。
3.2 实验环境
本实验使用4块型号为GeForce RTX
3090 的GPU来进行训练,深度学习框架与版本号为Pytorch1.7.1。本网络训练时的图片批量大小(batch size)设置为16,共进行36 000次迭代,将初始学习率设置为0.001,在第12000 和24000 次迭代时时学习率分别除以10。对训练数据作数据增强:(1)文本图像随机以比例{0.5, 1.0, 2.0, 3.0}进行缩放;(2)文本图像在[−10∘,10∘]范围内旋转;(3)将转换后的图像裁剪成为640像素尺寸的正方形样本。
3.3 消融实验
3.3.1 各个组件的影响
为验证本文设计的高分辨特征金字塔(HREP)、多尺度特征提取模块(MFEM)以及有效特征融合模块(EFFM)的有效性,在数据集ICDAR2015上进行大量的消融实验,具体实验结果如表1所示,P表示准确率,R表示召回率,F表示综合指标F值。其中,第1行作为本次实验的基准数据,不进行对模型进行任何改进。该消融实验的可视化结果如图4所示。
表 1 各个创新点的影响实验结果HREP MFEM EFFM EFFM* P R F 83.6 74.0 78.5 √ 85.4 75.6 80.2 √ 87.4 74.4 80.4 √ 85.7 80.1 82.8 √ √ 88.7 80.3 84.3 √ √ 88.2 77.1 82.3 √ √ √ 88.9 80.6 84.5 √ √ √ 88.5 79.9 84.0 注:EFFM*表示不进行交叉重构 根据表1第2行数据,引入本文所设计的EFFM模块,此模块用于进行多尺度特征和高分辨特征的高效表达,准确率和召回率相较于基准数据分别提高了1.8%和1.6%,F值提高了1.7%。EFFM通过分离冗余特征并对其进行重构,增强具有代表性特征,抑制空间维度上的冗余特征,从而提升模型对于场景文本检测的准确率与召回率。
根据表1第3行数据,引入本文所设计的MFEM模块,此模块用于进行多尺度特征提取,准确率和召回率相较于基准数据分别提高了3.8%和0.4%,F值提高了1.9%。MFEM模块利用空洞卷积并设置不同的膨胀率从而较大提高本文方法对于多尺度文本检测的准确率与召回率,此外还添加通道选择单元和空间选择单元,通过混合注意力机制突出文本尺度特征。
根据表1第4行数据,使用本文设计的HREP,用于生成高分辨特征,提升小尺度文本检测能力,准确率和召回率相较于基准数据分别提高了2.1%和6.1%,F值提高了4.3%。评价指标极大提升的原因在于设计的高分辨特征金字塔,首先通过从主干网络 阶段输出最大池化层之前的高分辨特征图,以此作为金字塔扩展层,此外还利用设计SFM来解析文本细节特征,并解决特征金字塔上层特征传递到底层造成的噪声影响。
根据表1第5行数据,当使用本文设计HREP,并引入MFEM后,准确率和召回率相较于基准数据分别提高了5.1%和6.3%,F值提高了5.8%。HREP通过对高分辨特征进行扩展以及对较高分辨率特征进行细节提取,而MFEM对低分辨特征采取多分支空洞卷积的方式进行多尺度特征处理,HREP和MFEM采用不同方式对不同阶段的特征进行充分利用。
根据表1第6行数据,当同时引入本文设计的MFEM模块和EFFM模块,准确率、召回率和F值相较于基准数据分别提高了4.6%, 3.1%和3.8%。MFEM模块提取到的特征不仅包含一部分多尺度信息特征,还包含一部分信息表达性较低的特征,因此需要对这部分特征进行整理后再利用。通过EFFM模块对特征进行重构,增强了其中多尺度特征的表达,从而进一步提升模型检测的准确性。
根据表1第7行数据,同时使用HREP, MFEM和EFFM,极大提升了模型文本检测能力,准确率和召回率相较于基准数据分别提高了5.3%和6.6%,F值提高了6.0%。原因在于MFEM提升了多尺度的文本检测能力,从高分辨扩展金字塔顶端传递高效特征信息至底端,为高分辨扩展金字塔探索不同尺度文本实例特征提供支持,有利于HRFP生成高分辨特征,更大的提高对于低分辨和小尺度文本的检测能力。然后,将二者生成的大量特征图,通过EFFM抑制空间维度的冗余,并对经过HREP和MFEM处理过的特征图进行高效表达。
根据表1第8行数据,同时使用HREP, MFEM和EFFM,但是在EFFM中不进行交叉重构处理。相比于同时正常使用HREP,MFEM和EFFM,准确率和召回率分别下降了0.4%和0.7%。实验结果表明在EFFM中引入交叉重构,未充分结合不同的信息特征,仅仅对特征进行分离,严重影响多尺度信息的表达。
该消融实验表明,本文提出的改进点均对文本检测各个评价指标有提升作用,各个改进点相互辅助,更好促进模型检测效果。
3.3.2 EFFM模块中阈值的影响
为探究EFFM模块中阈值大小对网络检测效果的影响,将阈值逐渐按照步长为0.1从0.2增加至0.8,在数据集ICDAR2015与CTW1500上进行大量实验。由图5可知,当阈值处于0.4~0.6时,模型的准确率与召回率均处于较高水平,当阈值低于0.4或高于0.7时,模型的准确率值与召回率会发生明显下降。实验表明,EFFM模块中阈值设置为0.5时,在数据集ICDAR2015中,准确率为88.9%,召回率为80.6%,F值84.5%;在数据集CTW1500中,准确率为87.1%,召回率为80.7%,F值为83.8%,此时HREPNet在两个数据集上各项评价指标表现均为最佳。
3.3.3 MFEM模块中膨胀系数的影响
为探究MFEM模块中膨胀系数的选择对网络检测效果的影响,设计不同的膨胀系数组合,在数据集ICDAR1015和CTW1500上进行大量实验。由表2可知当膨胀系数选择为1,2,4时,此时在两个数据集上实验结果中的各项评价指标均为最佳, 在ICDAR1025上的F值为84.5%,在CTW1500上的F值为83.8%。实验结果表明,合理膨胀系数选择有利于增加网络的感受野,提高模型对多尺度特征的检测,但过大的感受野会使模型忽略文本图像的关键纹理细节,从而使得模型检测效果下降,因此本文在MFEM中选择的膨胀系数分别为1,2,4。
表 2 MFEM模块中膨胀系数的选择对模型检测效果的影响膨胀系数 ICDAR2015 CTW1500 P R F P R F (1,2) 87.3 79.6 83.3 85.4 79.3 82.2 (1,4) 88.4 80.3 84.2 86.2 78.6 82.2 (1,2,4) 88.9 80.6 84.5 87.1 80.7 83.8 (1,2,6) 88.1 79.8 83.7 86.3 78.9 82.4 (1,2,4,6) 87.9 78.2 82.8 86.5 78.4 82.3 3.4 对比实验
3.4.1 不同尺度文本图像的对比实验
为探究本文方法对于不同尺度文本图像的检测效果的影响,本实验将数据集ICDAR2015作为实验数据集,将输入文本图像的尺寸(输入图像最短边的长度)设置为不同大小,通过改变文本图像的尺度从而影响检测文本的尺度。将实验数据集总体上分为小尺度(384 pixels, 448 pixels和512 pixels)、中尺度(736 pixels)和大尺度(1 536 pixels和2 048 pixels)。 根据图6(a)-图6(d)中实验数据,对于小尺度文本检测时,本文方法相较于基准方法综合指标F值分别提升7.8%,7.6%以及5.6%;对于中尺度文本,本文方法相较于基准方法准确率提升5.3%,召回率提升6.6%,综合指标F值提升6.0%。以上实验结果表明,本文设计的高分辨扩展金字塔通过引入高分辨扩展层和SFM模块,充分利用高分辨特征并减少噪声的影响,大幅提升中小尺度文本的检测效果。对于大尺度文本,综合指标F值分别提升4.5%和4.5%。分析图6中的实验数据,本文方法相较于基准方法提升最明显的文本图像尺寸为384 pixels,相较于基准方法准确率提升7.0%,召回率提升8.5%,此时文本图像中的文本实例绝大多数小于50pixels,本文设计的HREPNet所扩展的高分辨金字塔层可用于支持此类文本的特征提取,对小尺度和低分辨率文本检测性能提升尤为明显。
本文方法对与不同尺度下的文本图像的检测效果均有明显提升,对于小尺度文本的检测效果的提升大于大尺度文本。本文方法与基准方法对不同尺度文本图像检测可视化结果如图7所示,通过图7(a)可视化结果,本文方法相比于基准方法对小尺度文本图像(尺寸为384 pixels)检测到的文本框区域更加贴切于实际文本区域,实验结果证明HREPNet显著提升了对于小尺度文本的检测的准确性;本文方法相比于基准方法对大尺度文本图像(尺寸为2 048 pixels)检测到的正确文本框数量明显增加,实验结果证明HREPNet对于大尺度文本检测的召回率显著提升。
3.4.2 与先进算法的对比实验
为表明本文提出的HREPNet不仅在多尺度文本检测方面的效果具有显著提升,更在自然场景文本检测和弯曲文本检测具有明显优势,在相同实验条件下,使用相同的环境与配置参数将本文方法与先进算法进行对比实验,先进算法包括基于模糊语义的任意形状场景文本检测(Fuzzy Semantics for Arbitrary-Shaped Scene Text Detection, Wang et al.)[30],基于同心掩码的任意形状文本检测(Concentric mask network, CM-Net)[31],渐进式轮廓回归(Progressive contour regression, PCR)[14]和傅里叶轮廓嵌入(Fourier contour embedding, FCE)[15]等9种近年来极为优秀的文本检测方法,以上算法均发表在计算机视觉顶级期刊或会议。本文与现有场景文本检测算法的量化比较结果如表3所示,各项评价指标中综合指标F值最能代表算法的检测效果。表3中的实验结果表明,相比于其他先进算法,本文方法在各项评价指标上有明显优势。
表 3 公开数据集上本文方法与其它方法的比较结果方法(year) Exit CTW1500 Total-Text ICDAR2015 P R F P R F P R F PSENet (2019) [11] × 80.6 75.6 78.0 81.8 75.1 78.3 81.5 79.7 80.6 PAN (2019) [32] √ 86.4 81.2 83.7 88.0 79.4 83.5 82.9 77.8 80.3 TextField (2019) [33] √ 83.0 79.8 81.4 81.2 79.9 80.6 84.3 80.5 82.4 DBNet (2020) [12] √ 84.3 79.1 81.6 87.1 82.5 84.7 86.5 80.2 83.2 FCENet (2021) [15] × 85.7 80.7 83.1 87.4 79.8 83.4 85.1 84.2 84.6 PCR (2021) [14] × 85.3 79.8 82.4 86.1 80.2 83.1 - - - CM-Net (2022) [31] × 86.0 82.2 84.1 88.5 81.4 84.8 86.7 81.3 83.9 Wang et al. (2023) [30] × 84.6 77.7 81.0 88.7 79.9 84.1 88.1 78.8 83.2 baseline × 82.6 76.4 79.4 87.3 77.9 82.3 83.6 74.0 78.5 本文方法 × 87.1 80.7 83.8 88.8 81.2 84.8 88.9 80.6 84.5 根据表3实验数据,在曲形文本数据集CTW1500上,本文的方法所有指标均超过基准方法,准确率高于基准方法4.5%,召回率高于基准方法4.3%,F值高于基准方法4.4%。在准确率上超过其他全部方法,在综合指标F值上仅低于CM-Net[31]0.3%,但在尺度变化较大的场景文本数据集ICDAR2015上,CM-Net与 HREPNet相比召回率下降0.6%,实验结果表明,HREPNet与CM-Net相比对尺度变化的文本检测更为高效与准确。在弯曲文本数据集Total-Text中,本文的方法所有指标均超过基准方法,准确率超过基准方法1.5%,召回率超过基准方法3.3%,F值超过基准方法2.5%,其中准确率与F值均超过其他所有方法。在自然场景数据集ICDAR2015上,文本提出的方法在3项指标中均超过基准方法,其中准确率高于基准方法5.3%,召回率高于基准方法6.6%,F值高于基准方法6.0%。本文方法的准确率高于其它所有先进方法,综合评价指标F值仅低于FCENet[15]0.1%,但在弯曲文本数据集CTW1500和Total-Text上,HREPNet所有评价指标均超过FCENet,实验结果表明HREPNet相比FCENet在对弯曲文本检测更为准确与全面。
根据表3中实验数据,HREPNet相比于基准方法召回率虽然出现明显的大幅提升,但相比于部分先进算法仍然存在一定劣势,根据文献[34],在平衡准确率与召回率的关系的前提下,将围绕加强数据预处理与改进算法约束条件等方面进行深入研究。本文方法在公共数据集上可视化结果如图8所示,可视化结果表明在多个数据集上本文方法检测结果中的文本框与真实文本框十分贴合。对比实验结果表明,HREPNet在自然场景文本检测与弯曲文本方面都表现优异,该方法具有鲁棒性和泛化性。
4. 结束语
为解决自然场景中部分文本尺度变化大、分辨率小和有效特征不足等问题,本文提出一种基于高分辨扩展金字塔的文本检测网络(HREPNet),设计了高分辨扩展金字塔(HREP),并提出多尺度特征提取模块(MFEM)和高效特征融合模块(EFFM)。消融实验表明,提出的改进点相比于基准模型对文本检测各个评价指标均有明显的提升,各个改进点相互辅助,更好促进模型检测效果。在不同尺度文本图像的对比实验表明,HREPNet对与不同尺度下的文本图像的检测效果均有明显提升,对于小尺度文本的检测效果的提升大于大尺度文本。在自然场景和弯曲文本对比实验表明,HREPNet相比于其他先进算法在各项评价指标上均有明显优势,在自然场景文本检测与弯曲文本方面都表现优异,该方法具有鲁棒性和泛化性。虽然该方法有一定的鲁棒性,但模型参数量比较大,导致推理速度较慢。因此,在今后的工作中,将继续探究如何在保证准确率、召回率和 F 值不变的情况下,降低该网络模型参数量,提高网络推理速度。
-
表 1 各个创新点的影响实验结果
HREP MFEM EFFM EFFM* P R F 83.6 74.0 78.5 √ 85.4 75.6 80.2 √ 87.4 74.4 80.4 √ 85.7 80.1 82.8 √ √ 88.7 80.3 84.3 √ √ 88.2 77.1 82.3 √ √ √ 88.9 80.6 84.5 √ √ √ 88.5 79.9 84.0 注:EFFM*表示不进行交叉重构 表 2 MFEM模块中膨胀系数的选择对模型检测效果的影响
膨胀系数 ICDAR2015 CTW1500 P R F P R F (1,2) 87.3 79.6 83.3 85.4 79.3 82.2 (1,4) 88.4 80.3 84.2 86.2 78.6 82.2 (1,2,4) 88.9 80.6 84.5 87.1 80.7 83.8 (1,2,6) 88.1 79.8 83.7 86.3 78.9 82.4 (1,2,4,6) 87.9 78.2 82.8 86.5 78.4 82.3 表 3 公开数据集上本文方法与其它方法的比较结果
方法(year) Exit CTW1500 Total-Text ICDAR2015 P R F P R F P R F PSENet (2019) [11] × 80.6 75.6 78.0 81.8 75.1 78.3 81.5 79.7 80.6 PAN (2019) [32] √ 86.4 81.2 83.7 88.0 79.4 83.5 82.9 77.8 80.3 TextField (2019) [33] √ 83.0 79.8 81.4 81.2 79.9 80.6 84.3 80.5 82.4 DBNet (2020) [12] √ 84.3 79.1 81.6 87.1 82.5 84.7 86.5 80.2 83.2 FCENet (2021) [15] × 85.7 80.7 83.1 87.4 79.8 83.4 85.1 84.2 84.6 PCR (2021) [14] × 85.3 79.8 82.4 86.1 80.2 83.1 - - - CM-Net (2022) [31] × 86.0 82.2 84.1 88.5 81.4 84.8 86.7 81.3 83.9 Wang et al. (2023) [30] × 84.6 77.7 81.0 88.7 79.9 84.1 88.1 78.8 83.2 baseline × 82.6 76.4 79.4 87.3 77.9 82.3 83.6 74.0 78.5 本文方法 × 87.1 80.7 83.8 88.8 81.2 84.8 88.9 80.6 84.5 -
[1] WANG Xiaofeng, HE Zhihuang, WANG Kai, et al. A survey of text detection and recognition algorithms based on deep learning technology[J]. Neurocomputing, 2023, 556: 126702. doi: 10.1016/j.neucom.2023.126702. [2] NAIEMI F, GHODS V, and KHALESI H. Scene text detection and recognition: A survey[J]. Multimedia Tools and Applications, 2022, 81(14): 20255–20290. doi: 10.1007/s11042-022-12693-7. [3] 连哲, 殷雁君, 智敏, 等. 自然场景文本检测中可微分二值化技术综述[J]. 计算机科学与探索, 2024, 18(9): 2239–2260. doi: 10.3778/j.issn.1673-9418.2311105.LIAN Zhe, YIN Yanjun, ZHI Min, et al. Review of differentiable binarization techniques for text detection in natural scenes[J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(9): 2239–2260. doi: 10.3778/j.issn.1673-9418.2311105. [4] EPSHTEIN B, OFEK E, and WEXLER Y. Detecting text in natural scenes with stroke width transform[C]. Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010: 2963–2970. doi: 10.1109/CVPR.2010.5540041. [5] LI Qian, PENG Hao, LI Jianxin, et al. A survey on text classification: From traditional to deep learning[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2022, 13(2): 31. doi: 10.1145/3495162. [6] KIM K I, JUNG K, and KIM J H. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(12): 1631–1639. doi: 10.1109/TPAMI.2003.1251157. [7] TIAN Zhi, HUANG Weilin, HE Tong, et al. Detecting text in natural image with connectionist text proposal network[C]. Proceedings of the 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 56–72. doi: 10.1007/978-3-319-46484-8_4. [8] BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9365–9374. doi: 10.1109/CVPR.2019.00959. [9] HE Minghang, LIAO Minghui, YANG Zhibo, et al. MOST: A multi-oriented scene text detector with localization refinement[C]. Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 8813–8822. doi: 10.1109/CVPR46437.2021.00870. [10] DENG Dan, LIU Haifeng, LI Xuelong, et al. PixelLink: Detecting scene text via instance segmentation[C]. Proceedings of the 32nd AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018. doi: 10.1609/aaai.v32i1.12269. [11] WANG Wenhai, XIE Enze, LI Xiang, et al. Shape robust text detection with progressive scale expansion network[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9336–9345. doi: 10.1109/CVPR.2019.00956. [12] LIAO Minghui, ZOU Zhisheng, WAN Zhaoyi, et al. Real-time scene text detection with differentiable binarization and adaptive scale fusion[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 919–931. doi: 10.1109/TPAMI.2022.3155612. [13] ZHANG Chengquan, LIANG Borong, HUANG Zuming, et al. Look more than once: An accurate detector for text of arbitrary shapes[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 10552–10561. doi: 10.1109/CVPR.2019.01080. [14] DAI Pengwen, ZHANG Sanyi, ZHANG Hua, et al. Progressive contour regression for arbitrary-shape scene text detection[C]. Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 7393–7402. doi: 10.1109/CVPR46437.2021.00731. [15] ZHU Yiqin, CHEN Jianyong, LIANG Lingyu, et al. Fourier contour embedding for arbitrary-shaped text detection[C]. Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 3123–3131. doi: 10.1109/CVPR46437.2021.00314. [16] ZHANG Shixue, YANG Chun, ZHU Xiaobin, et al. Arbitrary shape text detection via boundary transformer[J]. IEEE Transactions on Multimedia, 2024, 26: 1747–1760. doi: 10.1109/TMM.2023.3286657. [17] YE Maoyuan, ZHANG Jing, ZHAO Shanshan, et al. DPText-DETR: Towards better scene text detection with dynamic points in transformer[C]. Proceedings of the 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 3241–3249. doi: 10.1609/aaai.v37i3.25430. [18] YU Wenwen, LIU Yuliang, HUA Wei, et al. Turning a CLIP model into a scene text detector[C]. Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 6978–6988. doi: 10.1109/CVPR52729.2023.00674. [19] YE Maoyuan, ZHANG Jing, ZHAO Shanshan, et al. DeepSolo: Let transformer decoder with explicit points solo for text spotting[C]. Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 19348–19357. doi: 10.1109/CVPR52729.2023.01854. [20] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, SUA, 2016: 770–778. doi: 10.1109/CVPR.2016.90. [21] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2117–2125. doi: 10.1109/CVPR.2017.106. [22] DENG Chunfang, WANG Mengmeng, LIU Liang, et al. Extended feature pyramid network for small object detection[J]. IEEE Transactions on Multimedia, 2022, 24: 1968–1979. doi: 10.1109/TMM.2021.3074273. [23] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834–848. doi: 10.1109/TPAMI.2017.2699184. [24] ZHANG Qiulin, JIANG Zhuqing, LU Qishuo, et al. Split to be slim: An overlooked redundancy in vanilla convolution[C]. Proceedings of the 29th International Joint Conference on Artificial Intelligence, 2021: 3195–3201. doi: 10.24963/ijcai.2020/442. (查阅网上资料,未找到对应的出版地信息,请确认) . [25] WU Yuxin and HE Kaiming. Group normalization[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 3–19. doi: 10.1007/978-3-030-01261-8_1. [26] LI Jiafeng, WEN Ying, and HE Lianghua. SCConv: Spatial and channel reconstruction convolution for feature redundancy[C]. Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 6153–6162. doi: 10.1109/CVPR52729.2023.00596. [27] KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. ICDAR 2015 competition on robust reading[C]. Proceedings of 2015 13th International Conference on Document Analysis and Recognition, Tunis, Tunisia, 2015: 1156–1160. doi: 10.1109/ICDAR.2015.7333942. [28] LIU Yuliang and JIN Lianwen. Deep matching prior network: Toward tighter multi-oriented text detection[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1962–1969. doi: 10.1109/CVPR.2017.368. [29] CH'NG C K and CHAN C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]. Proceedings of 2017 14th IAPR International Conference on Document Analysis and Recognition, Kyoto, Japan, 2017, 1: 935–942. doi: 10.1109/ICDAR.2017.157. [30] WANG Fangfang, XU Xiaogang, CHEN Yifeng, et al. Fuzzy semantics for arbitrary-shaped scene text detection[J]. IEEE Transactions on Image Processing, 2023, 32: 1–12. doi: 10.1109/TIP.2022.3201467. [31] YANG Chuang, CHEN Mulin, XIONG Zhitong, et al. CM-Net: Concentric mask based arbitrary-shaped text detection[J]. IEEE Transactions on Image Processing, 2022, 31: 2864–2877. doi: 10.1109/TIP.2022.3141844. [32] WANG Wenhai, XIE Enze, SONG Xiaoge, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[C]. Proceedings of 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 8440–8449. doi: 10.1109/ICCV.2019.00853. [33] XU Yongchao, WANG Yukang, ZHOU Wei, et al. TextField: Learning a deep direction field for irregular scene text detection[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5566–5579. doi: 10.1109/TIP.2019.2900589. [34] PENG Jingchao, ZHAO Haitao, ZHAO Kaijie, et al. CourtNet: Dynamically balance the precision and recall rates in infrared small target detection[J]. Expert Systems with Applications, 2023, 233: 120996. doi: 10.1016/j.eswa.2023.120996. -