Structural Refinement of Neural Style Transfer
-
摘要: 风格迁移过程中风格元素均匀分布在整个图像中会使风格化图像细节模糊,现有的迁移方法主要关注迁移风格的多样性,忽略了风格化图像的内容结构和细节信息。因此,该文提出结构细化的神经风格迁移方法,通过增加边缘检测网络对内容图像的轮廓边缘进行提取实现风格化图像内容结构的细化,凸显内容图像中的主要目标;通过对转换网络中的常规卷积层的较大卷积核进行替换,在具有相同的感受野的条件下,使网络模型参数更少,提升了迁移速度;通过对转换网络中的常规卷积层添加自适应归一化层,利用自适应归一化在特征通道中检测特定样式笔触产生较高的非线性同时保留内容图像的空间结构特性来细化生成图像的结构。该方法能够细化风格化图像的整体结构,使得风格化图像连贯性更好,解决了风格纹理均匀分布使得风格化图像细节模糊的问题,提高了图像风格迁移的质量。Abstract: In the process of style transfer, stylized image details are blurred when style elements are evenly distributed in the whole image. Besides, the existing style transfer methods mainly focus on the diversity of transferred styles, ignoring the content structure and details of the stylized images. To this end, a neural style transfer method of structure refinement is proposed, which refines the content structure of stylized image by adding edge detection network to extract the contour edge of the content image to highlight the main objectives in the content image. By replacing the larger convolution kernel of the conventional convolution layer in the transfer network, the model parameters of the transfer network are reduced, and the transfer speed is improved, while ensuring that the original receptive field is unchanged. Through the adaptive normalization of the conventional convolution layer, the structure of the generated image is refined by using the adaptive normalization to detect certain style of stroke in the feature channel to produce high nonlinearity while preserving the spatial structure of the content image. The method can refine the overall structure of the stylized image, make the stylized image more coherent, that the stylized image details are blurred due to the uniform distribution of style texture, and improve the quality of image style transfer.
-
Key words:
- Image processing /
- Deep learning /
- Neural network /
- Style transfer /
- Edge detection /
- Normalization
-
1. 引言
在导弹靶场试验中,测量目标着靶点坐标和目标运动方向对于评估导弹性能起着关键作用[1]。在导弹与靶平面交会的过程中,天线阵列中接收到目标辐射信号的天线间相位差随时间的变化规律由导弹的速度矢量和矢量脱靶量一共6个参数决定。在目标运动模型已知的前提下,测量系统通过互相关或其他方法可得到接收阵元间的相位差时间序列数据,进一步再通过构建方程组进行求解等方法就能估计出着靶点坐标和目标运动方向[2]。着靶点的测量精度不但与相位差数据提取精度有关,而且也受到天线阵列布放结构的影响,因此天线阵列几何结构的优化问题一直被广泛讨论和研究[3-7]。文献[8-10]对平面阵列的不同布放结构进行了对比和分析,但是其结论不能直接推广应用到3维空间的定位问题中。本文针对3维空间着靶点参数估计问题,建立了观测模型,阐述了采用非线性寻优处理进行参数估计的方法,提出了一种从灵敏度[10]的角度对比不同阵列布放结构性能的方法,并利用着靶点估计CRLB(Cramer-Rao Lower Bound)的理论推导和数值计算验证了该方法的可靠性[11]。
2. 定位原理
2.1 观测模型
假设目标做速度为
v 的匀速直线运动,设P0=[x0,y0,z0]T 为起始观测零时刻(t=0) 的目标位置点,Pθ=[xθ,yθ,zθ]T 为着靶时刻的目标位置点,观测长度|P0Pθ| 为L 。当目标绝对速度v 已知时,目标的运动轨迹可用W=[xθ,yθ,zθ,α,β]T 这5个参数表示,其中弹道偏角α 表示目标运动轨迹在xoy 平面上的投影与x 正轴夹角,弹道倾角β 表示目标运动轨迹与xoy 平面夹角。第ti 时刻(i=0,1,···,I−1) 目标轨迹点坐标为Pi=[xi,yi,zi]T ,其中I 为总的数据提取点数,T 为数据提取间隔。天线阵列由Q 个接收天线组成,sq=[xq,yq,zq]T(q=1,2,···,Q) 为接收天线的坐标,目标轨迹与靶平面的相对位置关系如图1所示。以着靶点坐标为参考,目标在
ti 时刻的速度与轨迹点坐标分别满足式(1):vx=vcosβcosαvy=vcosβsinαvz=−vsinβ},xi=xθ−vx[(I−1)T−ti]yi=yθ−vy[(I−1)T−ti]zi=zθ+vz[(I−1)T−ti]} (1) 其中,
vx ,vy ,vz 表示ti 时刻目标在X ,Y ,Z 3个方向上的速度分量。2.2 着靶点坐标估计
在匀速直线运动模型下,导弹在
ti 时刻与天线sq 的距离可以表示为dq,i=√(xq−xi)2+(yq−yi)2+(zq−zi)2,q=1,2,···,Q (2) 假定选取
P 对接收天线进行相位差提取,第p 对天线由天线m 和天线n 组成,则目标在ti 时刻时,接收天线m ,n 间的无模糊相位差可以表示为ϕp,i=2π[dm,i−dn,i]λ,i=0,1,···,I−1;p=1,2,···,P (3) 其中,
λ 为波长。假定每一对接收天线在不同时刻的相位差测量误差服从零均值独立高斯分布,则ti 时刻的观测值可以表示为ˉϕp,i=ϕp,i+ηϕ,ηϕ∼N(0,σ2ϕ) (4) 于是天线对
p 的无模糊相位差时间序列可以表示为ˉfp=[ϕp,0,ϕp,2,···,ϕp,I−1]T,p=1,2,···,P (5) 提取到观测量
ˉfp 后,构造向量X :X=[f1T,f2T,···,fPT]T (6) 对应的观测向量为
ˉX ,即可建立代价函数J=(X−ˉX)(X−ˉX)T (7) 最后可通过求解式(8)最小二乘估计问题,得到着靶点坐标的估计结果
ˆPθ :ˆPθ=argminPθJ (8) 3. 灵敏度分析
3.1 灵敏度
灵敏度反映了待估计参数的变化对观测量的影响情况。2维平面上利用平面阵的目标定位问题中,阵列布放结构与定位精度的关系可以通过几何分析比较直观地得出结论[8],而且不同方向上定位精度的差异与基线分量的排布紧密相关。但是在3维空间下对着靶点参数估计的精度,除了会受到观测量噪声大小、阵列布放结构和落点坐标影响以外,还会受到弹道偏角
α 、弹道倾角β 、观测点数I 和数据提取间隔T 的影响,估计过程更复杂,很难通过几何分析的方式直观地比较不同阵列布放结构的优劣。灵敏度可以反映相位差观测量受目标运动参数的影响情况[10],对于某个运动目标来说,天线阵列布局的不同会造成灵敏度的差异,因此比较灵敏度大小对判断阵列布放结构的优劣有价值。为了简化表达式,令
A=(I−i)cosβcosα,B=(I−i)cosβsinαC=(I−i)sinβcosα,D=(I−i)sinβsinα} (9) 则
ti 时刻目标与天线m 和天线n 的距离可分别表示为dm,i=√[xθ−xm−TvA]2+[yθ−ym−TvB]2+[zθ−zm+(I−i)Tvsinβ]2 (9) dn,i=√[xθ−xn−TvA]2+[yθ−yn−TvB]2+[zθ−zn+(I−i)Tvsinβ]2 (10) 则在速度
v 已知的情况下,第p 个天线对在ti 时刻的相位差ϕp,i 可表达为ϕp,i=(dm,i−dn,i)⋅2π/λ (12) 其中,
Pθ=[xθ,yθ,zθ]T 为着靶点坐标,T 为相位差数据提取间隔,I 为数据提取点数。对ϕp,i 求全微分可以得到Δϕp,i=∂ϕp,i∂xθΔxθ+∂ϕp,i∂yθΔyθ+∂ϕp,i∂zθΔzθ+∂ϕp,i∂αΔα+∂ϕp,i∂βΔβ (13) ∂ϕp,i∂xθ={[xθ−xm−TvA]/dm,i−[xθ−xn−TvA]/dn,i}⋅2π/λ (14) ∂ϕp,i∂yθ={[yθ−ym−TvB]/dm,i−[yθ−yn−TvB]/dn,i}⋅2π/λ (15) ∂ϕp,i∂zθ={[zθ−zm+Tvsinβ]/dm,i−[zθ−zn+Tvsinβ]/dn,i}⋅2π/λ (16) ∂ϕp,i∂α={TvB[xθ−xm−TvA]/dm,i−TvA[yθ−ym−TvB]/dm,i}⋅2π/λ−{TvB[xθ−xn−TvA]/dn,i−TvA[yθ−yn−TvB]/dn,i}⋅2π/λ (17) ∂ϕp,i∂β={TvC[xθ−xm−TvA]/dm,i+TvD[yθ−ym−TvB]/dm,i−(I−i)Tvcosβ[zθ−zm+(I−i)Tvsinβ]/dm,i}⋅2π/λ−{TvC[xθ−xn−TvA]/dn,i+TvD[yθ−yn−TvB]/dn,i−(I−i)Tvcosβ[zθ−zn+(I−i)Tvsinβ]/dm,i}⋅2π/λ (18) 根据式(13)可以得到
P 对接收天线的相位差时间序列受着靶点坐标Pθ=[xθ,yθ,zθ]T 影响的灵敏度F(Pθ)=P∑p=1I−1∑i=0(|∂fp,i∂xθ|+|∂fp,i∂yθ|+|∂fp,i∂zθ|) (19) 以及受目标运动方向
S=[α,β]T 影响的灵敏度F(S)=P∑p=1I−1∑i=0(|∂ϕp,i∂α|+|∂ϕp,i∂β|) (20) F(Pθ) 和F(S) 的值体现了着靶点坐标的变化对相位差时间序列整体值的影响,F(Pθ) 和F(S) 越大,理论上定位效果也会更好。3.2 CRLB
为了验证利用灵敏度信息比较不同阵列布局定位性能的可靠性,推导了利用无模糊相位差对匀速直线运动目标参数进行估计的CRLB。令
g(i)=[ϕ1,i, ϕ2,i,···,ϕP,i]T ,为ti 时刻观测的P 组无模糊相位差,则多次观测的无模糊相位差H=[g(1)T,g(2)T,···, g(i)T,···,g(I)T]T ,则待估计参数w=[x0,y0,z0,α,β]T 的方差为var(wi)≥[F−1(w)]ii (21) 其中,
F(w) 为5×5 的Fisher信息矩阵,则[F(w)]ij=−E[∂lnp(H;w)∂wi∂lnp(H;w)∂wj] (22) 设来波信号的信噪比为
SNR ,则ϕp,i 的均方根误差σϕ=√1/SNR 。则由式(22)可以得到待估参数的CRLB界为CRLB(w)={(∂H∂w)TR−1(∂H∂w)}−1 (23) 其中,
R=σ2ϕIPI 为协方差矩阵,IPI 为PI×PI 的单位阵,可见信号的信噪比越大,Fisher信息矩阵中各项的值越大,CRLB越小。式(23)中∂H∂w=[∂g(1)∂w···∂g(i)∂w···∂g(I)∂w]T∂g(i)∂w=[∂ϕ1,i∂w∂ϕ2,i∂w···∂ϕp,i∂w]T} (24) 其中,
∂ϕp,i∂w=[∂ϕp,i∂xθ,∂ϕp,i∂yθ,∂ϕp,i∂zθ,∂ϕp,i∂α,∂ϕp,i∂β]T ,式(14)—式(18)给出了各项的解析式。因此,可以得到着靶点坐标估计及角度估计的CRLB。为了方便与灵敏度计算结果进行对比,将着靶点坐标Pθ=[xθ,yθ,zθ]T 和目标运动方向A=[α,β]T 的CRLB分别表示为C(Pθ)=CRLB(x)+CRLB(y)+CRLB(z)C(A)=CRLB(α)+CRLB(β)} (25) 3.3 计算机仿真
选择了3种空间阵列类型进行灵敏度的分析,分别是常见的中心辐射阵、面心辐射阵和参考阵元位于平行于
z 轴棱边中点的顶角辐射阵,如图2所示。为了更好地比较和分析3种阵型的着靶点坐标估计性能,3种阵型都选取了8组天线对来提取相位差数据,参考阵元分别位于坐标[0,0,2]T m,[0,0,0]T m和[−2,−2,2]T m处。在
xoy 平面上x∈[−50,50] m,y∈[−50,50] m的方形区域上以2×2m2 的方格为单位均匀地选择2601个点作为待测的着靶点。以中心辐射阵为例,天线阵列与所选靶平面的相对位置关系如图3所示。设目标匀速直线运动速度为800m/s ,波长λ= 0.15m ,数据提取点数I=500 个,信噪比SNR=9dB ,数据提取间隔T=1ms 。选取弹道偏角α=10∘ ,弹道倾角β=80∘ ,观测量对着靶点坐标变化的灵敏度和坐标估计CRLB分布情况如图4和图5所示。为了更清晰地对比靶平面上3种阵列灵敏度和CRLB由近到远的变化情况,在坐标原点O 到点[50,50,0]T m这条线段上均匀选择6个点来做比较,如表1所示。表 1 不同阵列的灵敏度和CRLB对比坐标 (m) (0,0,0) (10,10,0) (20,20,0) (30,30,0) (40,40,0) (50,50,0) 中心辐射阵灵敏度 90.47 59.27 49.49 44.13 40.43 37.60 面心辐射阵灵敏度 132.31 83.81 69.89 62.36 57.23 53.34 顶角辐射阵灵敏度 92.06 59.83 50.14 44.83 41.16 38.35 中心辐射阵CRLB 3.9e-5 5.9e-4 0.0017 0.0031 0.0049 0.0071 面心辐射阵CRLB 4.8e-5 3.7e-4 0.001 0.0019 0.0029 0.0041 顶角辐射阵CRLB 4.7e-5 4.1e-4 0.0011 0.002 0.0031 0.0045 由图4、图5和表1可见,中心辐射阵和面心辐射阵对着靶点坐标的灵敏度分布特征比较相似,在各个方向上灵敏度变化比顶角辐射阵更加均匀,并且具有着靶点距离靶中心越远灵敏度越低、CRLB越大的特点。从数值上看,面心辐射阵的灵敏度值最高,顶角辐射阵次之,中心辐射阵最低。这说明同样是选取8对接收天线提取相位差的情况下,面心辐射阵的相位差观测量对着靶点坐标的变化最敏感,而中心辐射阵最迟钝。CRLB的计算结果也验证了这一点,如图5所示,从靶平面上的整体数值分布来看,面心辐射阵的CRLB界最低,即无偏估计理论上可以达到的精度最佳,顶角辐射阵次之,中心辐射阵最差,与灵敏度计算结果反映的3种阵列的优劣情况一致。
同样仿真条件下,观测量对目标运动角度参数变化的灵敏度和角度估计CRLB分布情况如图6和图7所示。
比较观测量对角度参数的灵敏度和角度估计CRLB的计算结果可以看出,在整个靶平面上,顶角辐射阵的灵敏度最大,CRLB也最低。中心辐射阵的灵敏度高于面心辐射阵,靶平面中部区域的CRLB也优于面心辐射阵,但是对于着靶点位于靶平面边缘的运动目标,面心辐射阵的目标参数估计CRLB则小于中心辐射阵。可见,对某些轨迹存在着观测量对角度参数灵敏度越大,CRLB反而越差的现象。通过式(13)和式(21)可以看出,观测量对某一个目标运动参数变化的灵敏度与其它参数的变化无关,而CRLB的计算过程中,不同的运动参数则互相影响。当假设其余参数已知时,即排除参数间相互影响,某个参数的CRLB与灵敏度的分布情况更加一致。仿真条件不变,假设着靶点坐标
Pθ= [xθ,yθ,zθ]T 和弹道倾角β 已知,弹道偏角α 的CRLB和灵敏度对比结果如图8和图9所示。通过仿真计算结果可以看出,顶角辐射阵灵敏度最高同时CRLB最优,中心辐射阵次之,面心辐射阵最差。可见,当假设除弹道偏角
α 外的参数均为已知时,观测量对α 变化的灵敏度和α 估计CRLB分布情况更为一致。4. 结论
本文针对基于PDOA着靶点参数估计问题提出了一种利用灵敏度分析来判断不同阵列类型定位性能的方法。通过灵敏度和CRLB的计算结果对比可以看出,灵敏度分析的方法可以较为直观和准确地体现不同阵列定位性能的差异,为工程设计提供了一种阵列结构选型和比较的方法。
-
表 1 步长和感受野参数设置
Layer Conv1_2 Conv2_2 Conv3_3 Conv3_4 Conv4_3 Conv4_4 Conv5_3 Conv5_4 步长 1 2 4 4 8 8 16 16 接受域 5 14 40 44 92 100 196 212 表 2 在BSDS500数据集上的客观评价指标
指标 ODS OIS AP 5层融合边缘检测图 0.760 0.784 0.800 6层融合边缘检测图 0.774 0.797 0.798 7层融合边缘检测图 0.777 0.788 0.814 8层融合边缘检测图 0.786 0.802 0.822 表 3 迁移网络改进前后参数量对比
对应卷积层参数量 特征图通道数 步长 卷积核尺寸,参数量 卷积核尺寸,参数量 Conv1 32 1 9×9, 159418368 2×5×5, 98406400 Conv2 64 2 3×3, 8856576 3×3, 8856576 Conv3 128 2 3×3, 4428288 3×3, 4428288 Resblock1-Resblock5 128 23454552 23454552 Nearest_Conv1 64 1/2 3×3, 57600 3×3, 57600 Nearest_Conv2 32 1/2 3×3, 73728 3×3, 73728 Conv4 3 1 9×9, 15552 2×5×5, 9600 总参数量 196.30×106 135.29×106 -
[1] KYPRIANIDIS J E, COLLOMOSSE J, WANG Tinghuai, et al. State of the “Art”: a taxonomy of artistic stylization techniques for images and video[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(5): 866–885. doi: 10.1109/TVCG.2012.160 [2] 袁野, 贾克斌, 刘鹏宇. 基于深度卷积神经网络的多元医学信号多级上下文自编码器[J]. 电子与信息学报, 2020, 42(2): 371–378. doi: 10.11999/JEIT190135YUAN Ye, JIA Kebin, and LIU Pengyu. Multi-context autoencoders for multivariate medical signals based on deep convolutional neural networks[J]. Journal of Electronics &Information Technology, 2020, 42(2): 371–378. doi: 10.11999/JEIT190135 [3] GATYS L A, ECKER A S, and BETHGE M. A neural algorithm of artistic style[J]. arXiv preprint arXiv: 1508.06576, 2015. [4] GATYS L A, ECKER A S, and BETHGE M. Image style transfer using convolutional neural networks[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 2414–2423. doi: 10.1109/cvpr.2016.265. [5] LUAN Fujun, PARIS S, SHECHTMAN E, et al. Deep photo style transfer[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017: 6997–7005. doi: 10.1109/CVPR.2017.740. [6] HUANG Xun and BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017: 1510–1519. doi: 10.1109/iccv.2017.167. [7] LI Chuan and WAND M. Combining Markov random fields and convolutional neural networks for image synthesis[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 2479–2486. doi: 10.1109/CVPR.2016.272. [8] DUMOULIN V, SHLENS J, and KUDLUR M. A learned representation for artistic style[J]. arXiv preprint arXiv: 1610.07629, 2016. [9] CHEN Yang, LAI Yukun, and LIU Yongjing. CartoonGAN: generative adversarial networks for photo cartoonization[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 9465–9474. doi: 10.1109/CVPR.2018.00986. [10] JOHNSON J, ALEXANDRE A, and LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]. The 14th European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 694–711. doi: 10.1007/978-3-319-46475-6_43. [11] 王鑫, 李可, 宁晨, 等. 基于深度卷积神经网络和多核学习的遥感图像分类方法[J]. 电子与信息学报, 2019, 41(5): 1098–1105. doi: 10.11999/JEIT180628WANG Xin, LI Ke, NING Chen, et al. Remote sensing image classification method based on deep convolution neural network and multi-kernel learning[J]. Journal of Electronics &Information Technology, 2019, 41(5): 1098–1105. doi: 10.11999/JEIT180628 [12] CHEN Chunfu, FAN Quanfu, MALLINAR N, et al. Big-little net: an efficient multi-scale feature representation for visual and speech recognition[J]. arXiv preprint arXiv: 1807.03848, 2018. [13] WANG Xin, YU F, DOU Ziyi, et al. SkipNet: Learning dynamic routing in convolutional networks[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 420–436. doi: 10.1007/978-3-030-01261-8_25. [14] LIU Yun, CHENG Mingming, HU Xiaowei, et al. Richer convolutional features for edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1939–1946. doi: 10.1109/TPAMI.2018.2878849 [15] XIE Saining and TU Zhuowen. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(1): 3–18. doi: 10.1007/s11263-017-1004-z [16] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 740–755. doi: 10.1007/978-3-319-10602-1_48. [17] SAIF M M and SVETLANA K. WikiArt emotions: an annotated dataset of emotions evoked by art[C]. The 11th International Conference on Language Resources and Evaluation, Miyazaki, Japan, 2018: 1225–1238. [18] LIU Xiaochang, CHENG Mingming, LAI Yukun, et al. Depth-aware neural style transfer[C]. The Symposium on Non-Photorealistic Animation and Rendering, California, USA, 2017: 4. doi: 10.1145/3092919.3092924. -