双向特征融合的快速精确任意形状文本检测

边亮; 屈亚东; 周宇

doi:10.11999/JEIT200880

双向特征融合的快速精确任意形状文本检测

doi: 10.11999/JEIT200880

边亮^1, ,,
屈亚东²,
周宇²

1.
北京航空航天大学电子信息工程学院北京 100191
2.
中国科学技术大学信息科学技术学院合肥 230026

详细信息

作者简介:
边亮：男，1982年生，博士生，研究方向为图像获取与处理

屈亚东：男，1998年生，硕士生，研究方向为场景图像文字合成、检测与识别

周宇：男，1992年生，博士生，研究方向为场景图像文字合成、检测与识别

通讯作者:
边亮　askquestionbl@163.com

中图分类号: TN911.73
计量
- 文章访问数: 1331
- HTML全文浏览量: 448
- PDF下载量: 96
- 被引次数: 0
出版历程
- 收稿日期: 2020-10-16
- 修回日期: 2021-01-29
- 网络出版日期: 2021-02-05
- 刊出日期: 2021-04-20

Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes

Liang BIAN^{1
, ,},
Yadong QU²,
Yu ZHOU²

1.
School of Aeronautic Science and Engineering, Beihang University, Beijing 100191, China
2.
School of Information Science and Technology, University of Science and Technology of China, Hefei 230026, China

摘要

摘要: 现有的基于分割的场景文本检测方法仍较难区分相邻文本区域，同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低。为了解决此问题，该文提出一种新颖的基于全卷积网络的场景文本检测模型。首先，该文构造特征提取器对输入图像提取多尺度特征图。其次，使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化。之后，该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本。其中前者可以保证不同的文本实例之间具有区分性，而后者能有效地指导网络优化。最后，为了提升文本检测的速度，该文提出一个快速且有效的后处理算法来生成文本边界框。实验结果表明：在相关数据集上，该文所提出的方法均实现了最好的效果，且比目前最好的方法在F-measure指标上最多提升了1.0%，并且可以实现将近实时的速度，充分证明了该方法的有效性和高效性。
- 场景文本检测 /
- 双向特征融合 /
- 多尺度特征 /
- 后处理复杂度 /
- 任意形状文本
Abstract: Existing segmentation based methods have problems, such as the difficulty in distinguishing adjacent text areas and the low efficiency of model detection caused by the complex steps in the post-processing stage. In order to solve this problem, this article proposes a novel scene text detection model based on fully convolutional network, which can solve the problem that adjacent texts are difficult to distinguish in existing methods and improve the detection speed of the model. First, it constructs a feature extractor to extract multi-scale feature map from the input image. Secondly, the bidirectional feature fusion module is used to fuse the semantic information of the two parallel branches and promote the joint optimization of the two branches. It then effectively differentiates adjacent texts by predicting both a reduced text area map and a full text area map in parallel. The former can guarantee the distinction between different text instances, while the latter can effectively guide the network optimization. Finally, in order to improve the speed of text detection, it proposes a fast and effective post-processing algorithm to generate text boundary boxes. The experimental results show that: on relative datasets, the method proposed in this article achieves the best performance, and improves the F-measure index by 1.0% at most compared with the current best method, and can achieve near-real-time speed, which proves fully the effectiveness and high efficiency of the method.
- Scene text detection /
- Bi-directional feature fusion /
- Multi-scale feature /
- Post-processing complexity /
- Arbitrary-shaped texts

HTML全文

1. 引言

压缩感知(Compressed Sensing, CS)是一种探寻欠定线性系统稀疏解的技术，用于获取和重构稀疏或可压缩的信号。该方法利用信号稀疏的特性，在远小于Nyquist采样率的条件下，用随机采样获取信号的离散样本，通过非线性重建算法完美地重建信号^[1]。压缩感知理论基于信号的可压缩性，通过低维空间、低分辨率和欠Nyquist采样数据的非相关观测来实现高维信号的感知，丰富了信号恢复的优化策略，促进了数学理论和工程应用的结合。

常见的压缩感知算法包括：匹配追踪(Matching Pursuit, MP)算法^[2]、迭代阈值(Iterative Hard Thresholding, IHT)算法^[3]和全变分(Total Variation, TV)算法^[4]等。以上算法中，TV算法具有较高的重构精度和所需测量值较少的特点，并且能够很好地保留图像的边缘信息，但由于基于变分过程，往往会导致严重的阶梯效应，使图像纹理出现缺失而过度平滑。Zhang等人^[5]结合TV算法和非局部正则化提出了基于非局部正则化的全变分(Total Variation based on Nonlocal Regularization, TVNR)算法，增强了图像的细节纹理，但该算法复杂度高，计算时间长，不适用实时处理。刘亚男等人^[6]将分数阶微分作为正则化项，提出了分数阶全变分(Fractional Order Total Variation, FOTV)算法，在低频分量损失有限的情况下大幅度增加高频分量，由低分辨率图像重构得到纹理细节较清晰的高分辨率图像，但Ma等人^[7]的研究指出，在图像信号中噪声和结构信息均属于高频成分，因此FOTV在提升图像细节的同时也放大了加性噪声，导致了该算法在噪声环境下失效，缩小了该算法的实际应用范围。目前针对抗噪声性能的研究工作主要集中在具体实验装置改进^[8,9]或测量矩阵的优化上^[10,11]，大多数图像重构算法仅考虑了无噪声条件下的图像重构^[12,13]，而兼顾图像重构和抗噪声性能的算法报道较少^[14]。在实际成像系统中，具有较好抗噪声性能的图像重构算法能有效地提高图像重构的质量，并且能够为单像素成像等计算成像实验系统的图像重构提供较好的解决方案。

本文较详细地分析了分数阶微分模型和高斯平滑滤波的原理，结合Li等人^[15]提出的增广拉格朗日交替方向算法，给出了一种基于高斯平滑压缩感知分数阶全变分(Fractional Order Total Variation based on Gaussian Smooth, FOTVGS)算法。在求解优化目标函数的过程中，使用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)^[16]将优化目标函数划分为两个子问题进行求解，并使用高斯平滑滤波算子更新拉格朗日梯度算子，改进了FOTV的抗噪声性能，使FOTV具有良好的鲁棒性。

2. 数学模型

2.1 分数阶微分系统的幅频特性

对满足狄利克雷条件的函数，其傅里叶变换为

$F(w) = \int\limits_{ - \infty }^{ + \infty } {f(t){{\rm{e}}^{ - {\rm{j}}wt}}} {\rm{d}}t$

(1)

利用傅里叶变换的微分性质

${D^\alpha }f(t)\mathop \to \limits^{{\rm{FT}}} {(jw)^\alpha }F(w) = {d^\alpha }(w)F(w)$

(2)

其中， ${d^\alpha }(w) = {(jw)^\alpha } = {\lambda ^\alpha }(w){{\rm{e}}^{{\rm{j}}{\theta ^\alpha }(w)}}$ ，幅频特性函数为 ${\lambda ^\alpha }(w) = {\left| w \right|^\alpha }$ ，相频特性函数为 ${\theta ^\alpha }(w) =$ $\alpha \pi /2{\rm{sgn}}(w)$ ，即分数阶微分算符为线性时不变系统，在不同阶次( $1 \le \alpha \le 2$ )下的分数阶微分算子的幅频特性如图1所示。

图 1 分数阶次

$\alpha$ 对信号幅频特性的影响

下载: 全尺寸图片幻灯片

为简要说明分数阶次 $\alpha$ 对信号幅频特性的影响，图1中低频和高频均被归一化，0.5～1.0 Hz表示低频区，1.0～1.5 Hz表示高频区，随着分数阶次 $\alpha$ 增大，分数阶微分算子对高频分量的幅度拉升作用逐渐增强，呈现出非线性增长，同时对低频分量的幅度有一定的抑制作用。为了提高信号的高频分量，同时使得低频信息不至于损失过多，一般选取1～2之间的阶数。本文以0.1为间隔，经过多次经验验证，当 $\alpha = 1.7$ 时，重构的图像能获得最佳的峰值信噪比(Peak Signal to Noise Ratio, PSNR)和结构相似度(Structural SIMilarity, SSIM)，为此本文采用 $\alpha = 1.7$ 。

2.2 高斯平滑

高斯平滑是一种线性平滑滤波，利用2维高斯分布函数生成高斯模板，扫描图像中的每一个像素，将邻域内像素的加权平均值作为新图像中模板中心位置的像素值。2维高斯滤波使用高斯核为x和y两个1维高斯核的乘积，其形式如式(3)

$G(x,y) = \frac{1}{{2{\rm{\pi}} {{\rm{\sigma}} ^2}}}\exp\left( - \frac{{{x^2} + {y^2}}}{{2{{\rm{\sigma}} ^2}}}\right)$

(3)

本文利用其去噪特性，结合拉格朗日交替方向算法，改进分数阶全变分算法，增强了算法的抗噪声性能。其中，高斯平滑的过程如式(4)

$G(i,j) = \sum\limits_{k,l} {f(i + k,j + l)} \times h(k,l)$

(4)

其中， $h$ 为高斯核函数，也称为权值。

3. 算法改进与优化

3.1 算法的改进

利用自然图像具有梯度最小化的先验信息，通过研究自然图像在梯度域的稀疏性，传统的全变分算法为

$\min \left| {{{Du}}} \right|,\;\;\;\;\;{{y}} = {{Au}}$

(5)

为减小梯度效应，结合分数阶微分，式(5)转化为

$\min \left| {{{{D}}^\alpha }{{u}}} \right|,\;\;\;{{y}} = {{A}}{{u}}$

(6)

其中， ${{D}} = [{{{D}}_{\rm{v}}},{{{D}}_{\rm{h}}}]$ 分别代表垂直和水平分数阶微分算子， ${{A}} \in {{{R}}^{M \times N}}$ 为投影矩阵， ${{u}}$ 为原始图像， ${{y}}$ 为测量值。由于原优化问题带有约束，并且不可微分。引入中间变量 ${{w}}$ ，式(6)等价于式(7)

$\mathop {\min}\limits_{{{w}},{{u}}} {\left\| {{w}} \right\|_1} ,{{w}} = {{{D}}^\alpha }{{u}},{{y}} = {{A}}{{u}}$

(7)

构建拉格朗日函数，将有约束的优化问题转换为无约束的优化问题

$\begin{split} L({{w}},{{u}}) = &\mathop {\min}\limits_{{{w}},{{u}}} {\left\| {{w}} \right\|_1} \!-\! {{{\nu}} ^{\rm{T}}}({{{D}}^\alpha }{{u}} \!-\! {{w}}) \!+\! \frac{\beta }{2}\left\| {{{{D}}^\alpha }{{u}} \!-\! {{w}}} \right\|_2^2 \\ &-{{{\lambda}} ^{\rm{T}}}({{Au}} - {{y}}) + \frac{\gamma }{2}\left\| {{{Au}} - {{y}}} \right\|_2^2 \\[-16pt]\end{split}$

(8)

其中， $\beta$ 和 $\gamma$ 为惩罚因子， ${{\nu}}$ 和 ${{\lambda}}$ 为拉格朗日梯度算子。利用增广拉格朗日方法迭代求解问题式(9)、式(10)来进一步求解无约束问题式(8)

$({{{w}}^{k + 1}},{{{u}}^{k + 1}}) = {\rm{argmin}} L({{w}},{{u}})\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$

(9)

$\left. {\begin{array}{*{20}{l}} {{{{{{\nu}}}} ^{(k + 1)}} = {{{\nu}} ^{(k)}} - \beta ({{{w}}^{(k + 1)}} - {{{D}}^\alpha }{{{\nu}} ^{(k + 1)}}) } \\ {{{{\nu}} ^{(k + 1)}} = G{{{\nu}} ^{(k + 1)}} } \\ {{{{\lambda}} ^{(k + 1)}} = {{{\lambda}} ^{(k)}} - \gamma ({{y}} - {{A}}{{{u}}^{(k + 1)}}) } \end{array}} \right\}$

(10)

从式(10)可知，在每次更新 ${{\nu}}$ 时，使用高斯平滑滤波算子 ${{G}}$ 更新拉格朗日梯度算子，以起到滤除分数阶微分造成的加性噪声高频分量增加部分。

3.2 算法的求解过程

式(8)由于其不可微分，很难得到解析解，本文采用ADMM方法将原始问题转化成若干个子问题并逐一求解。

(1) ${{w}}$ 子问题。对于给定 ${{u}}$ ，经过简化后，与 ${{w}}$ 有关的优化问题表示为

${{{w}}^{k + 1}} = \mathop {\min}\limits_{{w}} {\left\| {{w}} \right\|_1} - {{{\nu}} ^{\rm{T}}}({{w}} - {{{D}}^\alpha }{{u}}) + \frac{\beta }{2}\left\| {{{w}} - {{{D}}^\alpha }{{u}}} \right\|_2^2$

(11)

根据2D shrinkage-like定理^[17]，式(11)的封闭形式为

${{{w}}^{(k + 1)}} \!=\! \max\left\{ {\left| {{{{D}}^\alpha }{{u}} - \frac{{{\nu}} }{\beta }} \right| - \frac{1}{\beta },0} \right\} \!\times\! {\rm{sgn}}\left({{{D}}^\alpha }{{u}} \!-\! \frac{{{\nu}} }{\beta }\right)$

(12)

(2) ${{u}}$ 子问题。通过式(12)得到了 ${{w}}$ 的情况下，求解子 ${{u}}$ 问题等价于式(13)，其中 ${{w}}$ 已经由上述 ${{w}}$ 子问题求得，视为定值

$\begin{split} {{{u}}^{k + 1}} = & \mathop {\min}\limits_{{u}} \left\{ - {{{\nu }}^{\rm{T}}}({{{D}}^\alpha }{{u}} - {{w}}) + \frac{\beta }{2}\left\| {{{{D}}^\alpha }{{u}} - {{w}}} \right\|_2^2 \right.\\ &- {{{\lambda }}^{\rm{T}}}({{Au}} - {{y}}) + \frac{\gamma }{2}\left\| {{{Au}} - {{y}}} \right\|_2^2 \} \\[-20pt]\end{split}$

(13)

式(13)是一个2次方程，其离散梯度 ${{d}}$ 可被简化为 ${{d}} = {{{D}}^{{\alpha ^{\rm{T}}}}}(\beta {{{D}}^\alpha }{{u}} - {{\nu}} - \beta {{w}}) + {{{A}}^{\rm{T}}}(\gamma ({{Au}} - {{y}}) - {{\lambda}} )$ ，令 ${{d}} = {{{\textit{0}}}}$ 得到式(13)的解析解为

${{{u}}^{k + 1}} = {{{H}}^{ - 1}}({{{D}}^{{\alpha ^{\rm{{\rm T}}}}}}{{\nu }} + {{{A}}^{\rm{T}}}{{\lambda }} + \gamma {{{A}}^{\rm{T}}}{{y}} + \beta {{{D}}^{{\alpha ^{\rm{{\rm T}}}}}}{{w}})$

(14)

其中， ${{H}} = (\beta {{{D}}^{{\alpha ^{\rm T}}}}{{{D}}^\alpha } + \gamma {{{A}}^{\rm T}}{{A}})$ ，考虑到Moore-Penrose广义逆求解在数值计算上计算成本过高，因此，这里采用具有最优步长的最速梯度下降方法，通过式(15)和式(16)进行迭代求解

${{{u}}^{k + 1}} = {{{u}}^k} - {{{\eta}} _k}{{{d}}_k} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$

(15)

$\begin{split} {{{d}}_k} = &\sum\limits_i {{\beta _i}} {({{D}}_i^\alpha )^{\rm{{\rm T}}}}( - {{D}}_i^\alpha {{u}} - {{w}}_i^{k + 1}) - {({{D}}_i^\alpha )^{\rm{{\rm T}}}}{{{\nu }}_i}) \\ &+\gamma {{{A}}^{\rm{{\rm T}}}}({{Au}} - {{y}}) - {{{A}}^{\rm{{\rm T}}}}{{\lambda }}\\[-12pt]\end{split}$

(16)

其中， ${{{\eta}} _k} = {\rm{abs}}({{{d}}^{\rm{T}}}{{d}}/{{{d}}^{\rm{T}}}{{Hd}})$ 表示Barzilai-Borwein步长因子， ${{{d}}_k}$ 表示梯度，通过反复迭代，可以求出 ${{{u}}^{k + 1}}$ 。

解决 ${{w}}$ 和 ${{u}}$ 两个子问题，得到每次迭代中的 ${{w}}$ 和 ${{u}}$ ，然后通过式(10)，更新拉格朗日算子 ${{\nu}}$ 和 ${{\lambda}}$ 。再继续回到上述两个子问题更新下一次的 ${{w}}$ 和 ${{u}}$ ，如此迭代，便可用较少的测量值重构出完整的图像。具体算法如表1。

表 1 改进算法流程

输入：测量矩阵 ${{A}}$ ，测量值 ${{y}}$ ，相关参数 ${{\nu}}$ , ${{\lambda}}$ , $\beta$ , $\gamma$ , $\alpha$
初始化: ${{u}} = {{{A}}^{\rm T}}{{y}}$ , ${{\nu}} = {\bf{0}}$ , ${{\lambda}} = {\bf{0}}$ , $\beta = {2^6}$ , $\gamma = {2^7}$ , $\alpha = {2^7}$
While (目标函数式(8)未达到最优解) do
While ${\left\\| { { {{u} }^{(k + 1)} } - { {{u} }^k} } \right\\|_2} \ge \varepsilon$ do
利用式(12)求解 ${{w}}$ 子问题
利用式(13)求解 ${{u}}$ 子问题
End while
利用式(10)，使用高斯平滑滤波算子 $G$ 更新拉格朗日梯度算子
使用式(4)，将输入图像的像素值作为权重，乘以相关核
将上面各步得到的结果相加后输出
End while
输出：恢复的图像 ${{u}}$

下载: 导出CSV

| 显示表格

4. 实验结果和分析

仿真数据源选取斯坦福大学和南加州大学图像库的4幅像素为256×256的图像(Lena, Boats, Barbara, Peppers)作为原始图像，如图2所示。

图 2 实验原始图

下载: 全尺寸图片幻灯片

通过仿真实验，在不同采样率和不同的加性噪声下，将5种算法进行定性和定量对比。本实验中，测量矩阵采用高斯随机矩阵，分数阶次 $\alpha$ 为1.7，相关参数 $\beta$ 和 $\gamma$ 的初始化根据Li等人的经验，分别设定为 ${2^6}$ , ${2^7}$ 。迭代截止条件等其他参数根据个人经验值设定。实验使用的硬件配置为四核Intel®Core(TM)i53317U CPU@1.70 GHz的PC端，仿真软件采用MATLAB R2018b。

4.1 无噪声和噪声环境下图像重构的PSNR

本文利用高斯平滑算子更新拉格朗日梯度算子，抑制分数阶微分对噪声的放大。图3给出了在采样率为0.1, SNR=10 dB时，加入高斯平滑算子前后，Barbara图像的梯度算子 ${{\nu}}$ 的变化对比图。在迭代过程中，梯度算子 ${{\nu}}$ 共更新了12次，本文选取了5次作为实验对比图。

图 3 高斯平滑算子加入前后，梯度算子更新变化对比图

下载: 全尺寸图片幻灯片

如图3所示，随着算法的迭代进行，算子 ${{\nu}}$ 包含的图像梯度信息逐渐增多，同时弥漫在梯度算子上的噪声也随之增大，通过对比图3(a)和图3(b)，特别是第2次和第4次迭代，可以发现在加入高斯平滑后，能有效地抑制分数阶微分对噪声的放大，从而提高重构精度。

本研究组在实际单像素成像系统中，将实验时外界的环境噪声和器件的热噪声等效成图像测量值的加性高斯白噪声模型，测量值的SNR变化范围为10～35 dB，本文仿真了5种算法在不同采样率和测量值无噪声与有噪声情况下的图像重构PSNR，通过10次测量求平均PSNR，结果如表2。

表 2 在无噪声(测量值SNR=

${{ \infty }}$ )和有噪声情况下5种算法图像重构峰值信噪比(PSNR: dB)

采样率		0.1						0.2
SNR (dB)		10	20	25	30	35	$\infty$	10	20	25	30	35	$\infty$
Barbara	TV	12.53	16.26	18.77	19.39	20.43	22.06	13.62	17.25	19.83	20.48	21.66	24.12
	TVNR	13.50	16.73	18.92	19.83	21.53	23.06	14.54	17.82	20.23	21.56	22.23	25.05
	FOTV	10.83	15.55	16.39	18.28	19.86	24.35	12.91	16.77	18.10	19.24	20.04	25.56
	TVGS	13.10	16.57	18.43	18.76	20.04	21.53	14.12	17.73	19.94	19.52	20.62	23.21
	FOTVGS	14.32	17.93	19.17	20.36	22.30	25.28	15.25	18.37	20.77	22.10	23.31	26.35
Lena	TV	16.65	20.48	22.53	23.96	24.03	25.29	18.33	22.10	23.43	25.24	26.94	28.42
	TVNR	17.87	21.42	23.10	24.40	25.15	26.34	19.54	23.03	24.93	26.94	27.55	28.93
	FOTV	15.93	19.40	21.58	22.78	23.44	27.81	17.21	21.22	22.30	24.19	25.12	29.38
	TVGS	17.28	20.98	22.78	23.52	23.87	24.72	18.88	22.74	24.23	25.14	26.21	28.02
	FOTVGS	18.69	22.59	24.41	25.42	26.46	27.93	20.39	24.47	25.38	27.58	28.20	30.77
Boats	TV	14.75	18.58	20.13	21.30	22.51	23.21	15.57	19.38	21.00	22.91	24.28	26.66
	TVNR	15.93	19.74	20.99	21.94	23.01	23.75	16.55	20.34	22.88	23.65	24.87	27.12
	FOTV	13.51	17.37	18.89	20.86	21.39	24.60	14.21	18.75	20.78	21.93	23.93	27.86
	TVGS	15.33	19.00	20.23	21.02	22.06	23.01	16.02	19.93	21.21	22.82	24.01	26.03
	FOTVGS	17.10	20.86	22.37	23.55	24.37	25.46	17.82	23.26	24.69	25.15	26.84	28.69
Peppers	TV	16.66	20.51	21.19	22.54	23.53	24.03	17.89	21.75	23.24	24.65	25.30	26.06
	TVNR	17.52	21.79	22.36	23.11	24.00	24.78	18.77	23.23	24.88	25.94	26.23	27.83
	FOTV	15.75	19.13	20.23	21.47	22.72	25.66	16.51	20.96	22.41	23.71	24.51	28.41
	TVGS	17.21	21.55	21.24	22.31	23.17	23.84	18.25	22.55	23.94	24.71	25.02	25.87
	FOTVGS	18.63	22.35	23.79	24.47	25.32	26.33	19.54	24.77	25.44	26.11	27.32	28.88
采样率		0.3						0.4
SNR (dB)		10	20	25	30	35	$\infty$	10	20	25	30	35	$\infty$
Barbara	TV	14.69	18.55	21.05	22.50	23.40	26.33	16.55	20.45	23.64	24.98	25.90	28.11
	TVNR	15.77	19.49	21.97	23.87	24.58	27.33	17.63	22.37	24.53	25.78	26.45	29.49
	FOTV	13.93	18.56	19.04	21.51	22.54	27.95	15.34	19.24	22.21	23.48	24.24	29.98
	TVGS	15.43	19.03	21.24	22.47	23.21	26.00	17.21	21.23	24.01	25.07	25.79	27.91
	FOTVGS	16.83	20.36	22.45	24.34	25.14	28.57	18.56	23.66	25.49	26.03	27.86	30.47
Lena	TV	19.41	23.90	25.72	27.42	28.01	31.14	21.31	25.80	27.86	29.73	30.01	32.62
	TVNR	21.32	25.45	26.11	28.01	29.21	31.95	22.41	26.97	28.99	30.01	31.52	33.43
	FOTV	18.33	22.97	24.50	25.93	27.18	32.66	20.45	24.85	25.06	27.11	29.99	34.53
	TVGS	20.78	24.35	25.96	27.51	27.94	30.99	22.17	26.65	27.99	29.70	29.88	32.39
	FOTVGS	22.45	26.36	27.69	29.02	30.03	33.10	23.58	27.51	29.73	31.48	32.89	35.36
Boats	TV	17.88	23.01	24.19	25.27	26.55	28.35	19.23	25.36	26.00	27.41	28.28	29.87
	TVNR	19.53	24.94	25.24	26.45	27.14	28.83	20.82	26.65	27.21	28.77	29.56	30.29
	FOTV	17.02	22.94	23.12	24.56	25.51	29.25	18.88	24.16	25.78	26.03	27.64	30.68
	TVGS	18.77	24.68	24.23	25.10	26.35	28.01	20.59	26.18	26.55	27.46	28.00	29.51
	FOTVGS	20.45	25.49	26.22	27.18	28.03	29.67	21.96	27.42	28.69	29.15	30.24	31.43
Peppers	TV	18.61	23.40	24.22	25.04	26.74	27.96	19.97	24.06	25.61	26.97	28.16	29.71
	TVNR	19.93	24.82	25.96	26.92	27.71	28.32	21.32	25.36	26.99	27.98	28.72	29.92
	FOTV	17.44	20.67	22.58	24.23	25.35	29.11	18.54	23.66	24.97	26.05	27.14	30.51
	TVGS	19.66	24.54	24.42	25.02	26.45	27.31	20.86	25.88	25.97	26.87	29.03	29.41
	FOTVGS	21.23	25.35	26.79	27.47	28.89	29.42	22.39	26.77	27.44	28.35	29.11	30.89

下载: 导出CSV

| 显示表格

从表2可知，在相同的采样率下，本文所提FOTVGS算法有最大的PSNR。在无噪声(SNR= $\infty$ )情况下，通过对4幅图像在不同采样率下的PSNR求平均，FOTVGS算法相比于文献[6]中的FOTV算法平均PSNR提高0.66 dB，最大提高1.39 dB。在噪声( ${\rm{SNR}}$ 为10～35 dB)情况下，对比于只含高斯平滑的全变分(Total Variation with Gaussian Smooth, TVGS)算法，在大噪声情况(SNR<25 dB)，文献[4]中的TV算法会受到噪声干扰导致性能差于TVGS算法，而在小噪声情况下(SNR>25 dB)TV算法性能要好于TVGS算法，根据经验判断，可能是大噪声情况下，平滑算子去除的噪声较多，而小噪声情况下，平滑算子使图像过于平滑导致细节丢失。与无噪声情况下的结果相反，在噪声环境下，FOTV算法受噪声影响较大，文献[5]提出的TVNR算法性能好于FOTV算法，FOTV算法是最差的图像重构算法，而改进的FOTVGS算法却弥补了该算法的缺陷。通过对4幅图像在不同采样率下和不同测量噪声情况下求平均，给出的FOTVGS算法相比于FOTV算法平均PSNR提高3.11 dB，最大提高4.68 dB。

4.2 图像重构纹理细节分析

图4展示了在采样率为0.2时无噪声(SNR= $\infty$ )，测量值的SNR=25 dB以及采样率为0.1，测量值SNR=10 dB时3种情况下的5种算法对标准Lena图像的重构。

图 4 无噪声和噪声环境下重构对比图

下载: 全尺寸图片幻灯片

图4(a)—图4(d)显示了在无噪声情况下，5种算法重构图像纹理细节对比，由每幅子图的右下角展示的帽子环带的放大图可以看出，对比于FOTV算法，给出的FOTVGS算法在图像纹理细节上与其相近，甚至比其有更多的纹理细节。图4(f)—图4(j)展示了在测量值SNR=25 dB时5种算法重构的图像弥漫着形似椒盐噪声的噪声点，分数阶微分对噪声高频成分的放大作用导致FOTV算法具有最大的噪声值。本文给出的FOTVGS算法所重构的图像相比其他4种算法具有较小的噪声和较多的纹理细节，可见，FOTVGS算法有较强的抗噪声性能。图4(k)—图4(o)展示了在测量值SNR=10 dB和采样率为0.1时，5种算法的图像重构对比，在此种极端情况下，FOTV算法重构的图像噪声点较多，TVGS算法虽然噪声较小，但同时也导致了图像过于平滑，如图4中帽子环带信息缺失，从中可以看到改进的FOTVGS算法图像重构效果要好于其他4种，这与表2中给出的图像评价指标一致。

图5给出了在采样率为0.2情况下，5种算法在不同的噪声水平下的结构相似度(SSIM)变化值，其中测量值的SNR变化范围为10～35 dB。图中可知，在采样率为0.2的情况下，5种算法重构图像的SSIM随着噪声的增加逐渐减小。在相同的SNR下，FOTV算法有最小的SSIM，表明该算法不适合有噪声情况，本文改进的FOTVGS算法有最大的SSIM，说明该算法提高了原算法(FOTV)的抗噪声性能。

4.3 图像重构时间分析

为定量对比5种算法的算法复杂度，图6给出了5种算法在无噪声和噪声环境下(SNR变化范围10～35 dB)的平均图像重构时间对比图。

由图6可知，与FOTV算法相比，改进的FOTVGS算法在不增加过多的处理时间的情况下，具有FOTV算法提高图像纹理细节的特性同时克服了其较差的抗噪声性能。

5. 结论

本文详细分析了分数阶全变分和高斯平滑的数学模型，给出的FOTVGS算法解决了FOTV算法引起的梯度效应导致的图像纹理细节丢失和FOTV算法抗噪声性能较差的问题。文中对该算法进行了详细的分析，采用ADMM算法求解，给出了具体的求解过程，在求解过程中采用高斯平滑算子更新拉格朗日梯度算子，在较好地保留图像纹理细节的同时提高了原有算法的抗噪声性能。在算法时间复杂度方面，改进的算法在不增加过多图像重构时间的基础上，增强了图像重构的纹理细节。因此，该算法为单像素成像等计算成像的实际成像系统提供了行之有效的图像重构方法。

图 5 采样率为0.2情况下5种算法的重构SSIM曲线

下载: 全尺寸图片幻灯片

图 6 无噪声和噪声环境下5种算法在不同采样率下平均重构时间对比图

下载: 全尺寸图片幻灯片

图 1 双向特征融合模块内部网络示意图

下载: 全尺寸图片幻灯片

图 2 网络结构图

下载: 全尺寸图片幻灯片

图 3 标签生成示意图

下载: 全尺寸图片幻灯片

图 4 检测的最终结果

下载: 全尺寸图片幻灯片

图 5 不同方法在3个数据集上的速度-精度对比

下载: 全尺寸图片幻灯片

图 6 不同数据集模型的测试结果可视化图

下载: 全尺寸图片幻灯片

图 7 模型检测错误的一些例子

下载: 全尺寸图片幻灯片

表 1 双向特征融合模块及整体文本框分支在不同基础网络下的性能增益及检测效率

基础网络	双向特征融合模块	整体文本区域预测分支	评价指标(%)			FPS
基础网络	双向特征融合模块	整体文本区域预测分支	准确率	召回率	F综合指标	FPS
ResNet-50	×	×	87.4	82.7	85.0	17.4
ResNet-50	×	√	87.8	83.1	85.4	16.8
ResNet-50	√	√	88.0	83.5	85.7	16.0
ResNet-18	×	×	86.6	79.8	83.1	31.0
ResNet-18	×	√	85.9	80.8	83.3	30.5
ResNet-18	√	√	86.5	81.2	83.8	29.6

下载: 导出CSV

表 2 TotalText数据集模型性能对比

方法	评价指标(%)			FPS
方法	准确率	召回率	F综合指标	FPS
EAST^*[12]	36.2	50.0	42.0	–
TextSnake^[2]	74.5	82.7	78.4	–
MSR^[21]	74.8	83.8	79.0	4.3
PSENet-1s^[7]	78.0	84.0	80.9	3.9
Textfield^[22]	81.2	79.9	80.6	6
LOMO^[13]	87.6	79.3	83.3	–
CRAFT^[20]	87.6	79.9	83.6	–
DB^[9]	87.1	82.5	84.7	32
本文方法	88.0	83.5	85.7	16

下载: 导出CSV

表 3 MSRA-TD500数据集模型性能对比

方法	评价指标(%)			FPS
方法	准确率	召回率	F综合指标	FPS
RRPN^[23]	82.0	68.0	74.0	–
MCN^[24]	88.0	79.0	83.0	–
PixelLink^[6]	83.0	73.2	77.8	3.0
TextSnake^[2]	83.2	73.9	78.3	1.1
CRAFT^[20]	88.2	78.2	82.9	8.6
Tian等人^[32]	84.2	81.7	82.9	–
DB^[9]	91.5	79.2	84.9	32.0
本文方法	91.1	81.3	85.9	17.1

下载: 导出CSV

表 4 CTW1500数据集模型性能对比

方法	评价指标(%)			FPS
方法	准确率	召回率	F综合指标	FPS
CTPN^[25]	60.4	53.8	56.9	7.14
EAST^[12]	78.7	49.1	60.4	21.2
Seglink^[11]	42.3	40.0	40.8	10.7
TextSnake^[2]	67.9	85.3	75.6	1.1
PSENet-1s^[7]	84.8	79.7	82.2	3.9
Tian等人^[3]	77.8	82.7	80.1	3
LOMO^[13]	69.6	89.2	78.4	4.4
DB^[9]	86.9	80.2	83.4	22
本文方法	84.7	82.3	83.5	15.2

下载: 导出CSV

参考文献(25)

黄剑华, 承恒达, 吴锐, 等. 基于模糊同质性映射的文本检测方法[J]. 电子与信息学报, 2008, 30(6): 1376–1380.

HUANG Jianhua, CHENG Hengda, WU Rui, et al. A new approach for text detection using fuzzy homogeneity[J]. Journal of Electronics &Information Technology, 2008, 30(6): 1376–1380.

LONG Shangbang, RUAN Jiaqiang, ZHANG Wenjie, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 19–35.

TIAN Zhuotao, SHU M, LYU P, et al. Learning shape-aware embedding for scene text detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 4229–4238.

HUANG Weilin, QIAO Yu, and TANG Xiaoou. Robust scene text detection with convolution neural network induced MSER trees[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 497–511.

JADERBERG M, VEDALDI A, and ZISSERMAN A. Deep features for text spotting[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 512–528.

DENG Dan, LIU Haifeng, LI Xuelong, et al. Pixellink: Detecting scene text via instance segmentation[C]. The 32nd AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018: 6773–6780.

WANG Wenhai, XIE Enze, LI Xiang, et al. Shape robust text detection with progressive scale expansion network[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9328–9337.

XIE Enze, ZANG Yuhang, SHAO Shuai, et al. Scene text detection with supervised pyramid context network[C]. The 33rd AAAI Conference on Artificial Intelligence, Honolulu, USA, 2019: 9038–9045.

LIAO Minghui, WAN Zhaoyi, YAO Cong, et al. Real-time scene text detection with differentiable binarization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11474–11481. doi: 10.1609/aaai.v34i07.6812

LIAO Minghui, SHI Baoguang, and BAI Xiang. Textboxes++: A single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3676–3690. doi: 10.1109/TIP.2018.2825107

SHI Baoguang, BAI Xiang, and BELONGIE S. Detecting oriented text in natural images by linking segments[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3482–3490.

ZHOU Xinyu, YAO Cong, WEN He, et al. EAST: An efficient and accurate scene text detector[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2642–2651.

ZHANG Chengquan, LIANG Borong, HUANG Zuming, et al. Look more than once: An accurate detector for text of arbitrary shapes[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 10544–10553.

DAI Jifeng, QI Haozhi, XIONG Yuwen, et al. Deformable convolutional networks[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 764–773.

谢金宝, 侯永进, 康守强, 等. 基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报, 2018, 40(5): 1258–1265. doi: 10.11999/JEIT170815

XIE Jinbao, HOU Yongjin, KANG Shouqiang, et al. Multi-feature fusion based on semantic understanding attention neural network for Chinese text categorization[J]. Journal of Electronics &Information Technology, 2018, 40(5): 1258–1265. doi: 10.11999/JEIT170815

GUPTA A, VEDALDI A, and ZISSERMAN A. Synthetic data for text localisation in natural images[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2315–2324.

LIU Yuliang, JIN Lianwen, ZHANG Shuaitao, et al. Curved scene text detection via transverse and longitudinal sequence connection[J]. Pattern Recognition, 2019, 90: 337–345.

CH’NG C K and CHAN C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]. The 2017 14th IAPR International Conference on Document Analysis and Recognition, Kyoto, Japan, 2017: 935–942.

YAO Cong, BAI Xiang, LIU Wenyu, et al. Detecting texts of arbitrary orientations in natural images[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 1083–1090.

BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9357–9366.

XUE Chuhui, LU Shijian, ZHANG Wei. MSR: Multiscale shape regression for scene text detection[C]. KRAUS S. The 28th International Joint Conference on Artificial Intelligence, Macao, China, 2019: 989–995.

XU Yongchao, WANG Yukang, ZHOU Wei, et al. Textfield: Learning a deep direction field for irregular scene text detection[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5566–5579.

MA Jianqi, SHAO Weiyuan, YE Hao, et al. Arbitraryoriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111–3122.

LIU Zichuan, LIN Guosheng, YANG Sheng, et al. Learning markov clustering networks for scene text detection[C]. 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6936–6944.

TIAN Zhi, HUANG Weilin, HE Tong, et al. Detecting text in natural image with connectionist text proposal network[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 56–72.

施引文献

资源附件(0)

访问统计

图(7) / 表(4)

计量

文章访问数: 1331
HTML全文浏览量: 448
PDF下载量: 96
被引次数: 0

1. 引言
2. 数学模型
2.1 分数阶微分系统的幅频特性
2.2 高斯平滑
3. 算法改进与优化
3.1 算法的改进
3.2 算法的求解过程
4. 实验结果和分析
4.1 无噪声和噪声环境下图像重构的PSNR
4.2 图像重构纹理细节分析
4.3 图像重构时间分析
5. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

双向特征融合的快速精确任意形状文本检测

doi: 10.11999/JEIT200880

作者简介:
边亮：男，1982年生，博士生，研究方向为图像获取与处理

屈亚东：男，1998年生，硕士生，研究方向为场景图像文字合成、检测与识别

周宇：男，1992年生，博士生，研究方向为场景图像文字合成、检测与识别

通讯作者:
边亮　askquestionbl@163.com

计量

Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes

1. 引言

2. 数学模型

2.1 分数阶微分系统的幅频特性

2.2 高斯平滑

3. 算法改进与优化

3.1 算法的改进

3.2 算法的求解过程

4. 实验结果和分析

4.1 无噪声和噪声环境下图像重构的PSNR

4.2 图像重构纹理细节分析

4.3 图像重构时间分析

5. 结论

计量

目录

1. 引言

2. 数学模型

2.1 分数阶微分系统的幅频特性

2.2 高斯平滑

3. 算法改进与优化

3.1 算法的改进

3.2 算法的求解过程

4. 实验结果和分析

4.1 无噪声和噪声环境下图像重构的PSNR

4.2 图像重构纹理细节分析

4.3 图像重构时间分析

5. 结论

留言板

双向特征融合的快速精确任意形状文本检测

doi: 10.11999/JEIT200880

作者简介: 边亮：男，1982年生，博士生，研究方向为图像获取与处理 屈亚东：男，1998年生，硕士生，研究方向为场景图像文字合成、检测与识别 周宇：男，1992年生，博士生，研究方向为场景图像文字合成、检测与识别

通讯作者: 边亮 askquestionbl@163.com

计量

出版历程

Bi-directional Feature Fusion for Fast and Accurate Text Detection of Arbitrary Shapes

1. 引言

2. 数学模型

2.1 分数阶微分系统的幅频特性

2.2 高斯平滑

3. 算法改进与优化

3.1 算法的改进

3.2 算法的求解过程

4. 实验结果和分析

4.1 无噪声和噪声环境下图像重构的PSNR

4.2 图像重构纹理细节分析

4.3 图像重构时间分析

5. 结论

计量

出版历程

目录

1. 引言

2. 数学模型

2.1 分数阶微分系统的幅频特性

2.2 高斯平滑

3. 算法改进与优化

3.1 算法的改进

3.2 算法的求解过程

4. 实验结果和分析

4.1 无噪声和噪声环境下图像重构的PSNR

4.2 图像重构纹理细节分析

4.3 图像重构时间分析

5. 结论

作者简介:
边亮：男，1982年生，博士生，研究方向为图像获取与处理

屈亚东：男，1998年生，硕士生，研究方向为场景图像文字合成、检测与识别

周宇：男，1992年生，博士生，研究方向为场景图像文字合成、检测与识别

通讯作者:
边亮　askquestionbl@163.com