高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

结构细化的神经风格迁移

沈瑜 杨倩 陈小朋 苑玉彬 张泓国 王霖

沈瑜, 杨倩, 陈小朋, 苑玉彬, 张泓国, 王霖. 结构细化的神经风格迁移[J]. 电子与信息学报, 2021, 43(8): 2361-2369. doi: 10.11999/JEIT200211
引用本文: 沈瑜, 杨倩, 陈小朋, 苑玉彬, 张泓国, 王霖. 结构细化的神经风格迁移[J]. 电子与信息学报, 2021, 43(8): 2361-2369. doi: 10.11999/JEIT200211
Zhu Bo-cheng, Cheng Wei-jun. Analysis of Generalized Selection Cooperative Diversity and Its Improved Scheme with Threshold Selection[J]. Journal of Electronics & Information Technology, 2007, 29(2): 319-322. doi: 10.3724/SP.J.1146.2006.01024
Citation: Yu SHEN, Qian YANG, Xiaopeng CHEN, Yubin YUAN, Hongguo ZHANG, Lin WANG. Structural Refinement of Neural Style Transfer[J]. Journal of Electronics & Information Technology, 2021, 43(8): 2361-2369. doi: 10.11999/JEIT200211

结构细化的神经风格迁移

doi: 10.11999/JEIT200211
基金项目: 国家自然科学基金(61861025)
详细信息
    作者简介:

    沈瑜:女,1982年生,教授,硕士生导师,研究方向为深度学习、神经网络、图像处理

    杨倩:女,1995年生,硕士,研究方向为神经网络、风格迁移

    通讯作者:

    杨倩 13662175532@163.com

  • 中图分类号: TN911.73; TP391

Structural Refinement of Neural Style Transfer

Funds: The National Natural Science Foundation of China (61861025)
  • 摘要: 风格迁移过程中风格元素均匀分布在整个图像中会使风格化图像细节模糊,现有的迁移方法主要关注迁移风格的多样性,忽略了风格化图像的内容结构和细节信息。因此,该文提出结构细化的神经风格迁移方法,通过增加边缘检测网络对内容图像的轮廓边缘进行提取实现风格化图像内容结构的细化,凸显内容图像中的主要目标;通过对转换网络中的常规卷积层的较大卷积核进行替换,在具有相同的感受野的条件下,使网络模型参数更少,提升了迁移速度;通过对转换网络中的常规卷积层添加自适应归一化层,利用自适应归一化在特征通道中检测特定样式笔触产生较高的非线性同时保留内容图像的空间结构特性来细化生成图像的结构。该方法能够细化风格化图像的整体结构,使得风格化图像连贯性更好,解决了风格纹理均匀分布使得风格化图像细节模糊的问题,提高了图像风格迁移的质量。
  • 在导弹靶场试验中,测量目标着靶点坐标和目标运动方向对于评估导弹性能起着关键作用[1]。在导弹与靶平面交会的过程中,天线阵列中接收到目标辐射信号的天线间相位差随时间的变化规律由导弹的速度矢量和矢量脱靶量一共6个参数决定。在目标运动模型已知的前提下,测量系统通过互相关或其他方法可得到接收阵元间的相位差时间序列数据,进一步再通过构建方程组进行求解等方法就能估计出着靶点坐标和目标运动方向[2]。着靶点的测量精度不但与相位差数据提取精度有关,而且也受到天线阵列布放结构的影响,因此天线阵列几何结构的优化问题一直被广泛讨论和研究[3-7]。文献[8-10]对平面阵列的不同布放结构进行了对比和分析,但是其结论不能直接推广应用到3维空间的定位问题中。本文针对3维空间着靶点参数估计问题,建立了观测模型,阐述了采用非线性寻优处理进行参数估计的方法,提出了一种从灵敏度[10]的角度对比不同阵列布放结构性能的方法,并利用着靶点估计CRLB(Cramer-Rao Lower Bound)的理论推导和数值计算验证了该方法的可靠性[11]

    假设目标做速度为v的匀速直线运动,设P0=[x0,y0,z0]T为起始观测零时刻(t=0)的目标位置点,Pθ=[xθ,yθ,zθ]T为着靶时刻的目标位置点,观测长度|P0Pθ|L。当目标绝对速度v已知时,目标的运动轨迹可用W=[xθ,yθ,zθ,α,β]T这5个参数表示,其中弹道偏角α表示目标运动轨迹在xoy平面上的投影与x正轴夹角,弹道倾角β表示目标运动轨迹与xoy平面夹角。第ti时刻(i=0,1,···,I1)目标轨迹点坐标为Pi=[xi,yi,zi]T,其中I为总的数据提取点数,T为数据提取间隔。天线阵列由Q个接收天线组成,sq=[xq,yq,zq]T(q=1,2,···,Q)为接收天线的坐标,目标轨迹与靶平面的相对位置关系如图1所示。

    图 1  目标轨迹与靶平面之间的相对位置关系

    以着靶点坐标为参考,目标在ti时刻的速度与轨迹点坐标分别满足式(1):

    vx=vcosβcosαvy=vcosβsinαvz=vsinβ},xi=xθvx[(I1)Tti]yi=yθvy[(I1)Tti]zi=zθ+vz[(I1)Tti]}
    (1)

    其中,vx, vy, vz表示ti时刻目标在X, Y, Z3个方向上的速度分量。

    在匀速直线运动模型下,导弹在ti时刻与天线sq的距离可以表示为

    dq,i=(xqxi)2+(yqyi)2+(zqzi)2,q=1,2,···,Q
    (2)

    假定选取P对接收天线进行相位差提取,第p对天线由天线m和天线n组成,则目标在ti时刻时,接收天线m, n间的无模糊相位差可以表示为

    ϕp,i=2π[dm,idn,i]λ,i=0,1,···,I1;p=1,2,···,P
    (3)

    其中,λ为波长。假定每一对接收天线在不同时刻的相位差测量误差服从零均值独立高斯分布,则ti时刻的观测值可以表示为

    ˉϕp,i=ϕp,i+ηϕ,ηϕN(0,σ2ϕ)
    (4)

    于是天线对p的无模糊相位差时间序列可以表示为

    ˉfp=[ϕp,0,ϕp,2,···,ϕp,I1]T,p=1,2,···,P
    (5)

    提取到观测量ˉfp后,构造向量X

    X=[f1T,f2T,···,fPT]T
    (6)

    对应的观测向量为ˉX,即可建立代价函数

    J=(XˉX)(XˉX)T
    (7)

    最后可通过求解式(8)最小二乘估计问题,得到着靶点坐标的估计结果ˆPθ

    ˆPθ=argminPθJ
    (8)

    灵敏度反映了待估计参数的变化对观测量的影响情况。2维平面上利用平面阵的目标定位问题中,阵列布放结构与定位精度的关系可以通过几何分析比较直观地得出结论[8],而且不同方向上定位精度的差异与基线分量的排布紧密相关。但是在3维空间下对着靶点参数估计的精度,除了会受到观测量噪声大小、阵列布放结构和落点坐标影响以外,还会受到弹道偏角α、弹道倾角β、观测点数I和数据提取间隔T的影响,估计过程更复杂,很难通过几何分析的方式直观地比较不同阵列布放结构的优劣。灵敏度可以反映相位差观测量受目标运动参数的影响情况[10],对于某个运动目标来说,天线阵列布局的不同会造成灵敏度的差异,因此比较灵敏度大小对判断阵列布放结构的优劣有价值。

    为了简化表达式,令

    A=(Ii)cosβcosα,B=(Ii)cosβsinαC=(Ii)sinβcosα,D=(Ii)sinβsinα}
    (9)

    ti时刻目标与天线m和天线n的距离可分别表示为

    dm,i=[xθxmTvA]2+[yθymTvB]2+[zθzm+(Ii)Tvsinβ]2
    (9)
    dn,i=[xθxnTvA]2+[yθynTvB]2+[zθzn+(Ii)Tvsinβ]2
    (10)

    则在速度v已知的情况下,第p个天线对在ti时刻的相位差ϕp,i可表达为

    ϕp,i=(dm,idn,i)2π/λ
    (12)

    其中,Pθ=[xθ,yθ,zθ]T为着靶点坐标,T为相位差数据提取间隔,I为数据提取点数。对ϕp,i求全微分可以得到

    Δϕp,i=ϕp,ixθΔxθ+ϕp,iyθΔyθ+ϕp,izθΔzθ+ϕp,iαΔα+ϕp,iβΔβ
    (13)
    ϕp,ixθ={[xθxmTvA]/dm,i[xθxnTvA]/dn,i}2π/λ
    (14)
    ϕp,iyθ={[yθymTvB]/dm,i[yθynTvB]/dn,i}2π/λ
    (15)
    ϕp,izθ={[zθzm+Tvsinβ]/dm,i[zθzn+Tvsinβ]/dn,i}2π/λ
    (16)
    ϕp,iα={TvB[xθxmTvA]/dm,iTvA[yθymTvB]/dm,i}2π/λ{TvB[xθxnTvA]/dn,iTvA[yθynTvB]/dn,i}2π/λ
    (17)
    ϕp,iβ={TvC[xθxmTvA]/dm,i+TvD[yθymTvB]/dm,i(Ii)Tvcosβ[zθzm+(Ii)Tvsinβ]/dm,i}2π/λ{TvC[xθxnTvA]/dn,i+TvD[yθynTvB]/dn,i(Ii)Tvcosβ[zθzn+(Ii)Tvsinβ]/dm,i}2π/λ
    (18)

    根据式(13)可以得到P对接收天线的相位差时间序列受着靶点坐标Pθ=[xθ,yθ,zθ]T影响的灵敏度

    F(Pθ)=Pp=1I1i=0(|fp,ixθ|+|fp,iyθ|+|fp,izθ|)
    (19)

    以及受目标运动方向S=[α,β]T影响的灵敏度

    F(S)=Pp=1I1i=0(|ϕp,iα|+|ϕp,iβ|)
    (20)

    F(Pθ)F(S)的值体现了着靶点坐标的变化对相位差时间序列整体值的影响,F(Pθ)F(S)越大,理论上定位效果也会更好。

    为了验证利用灵敏度信息比较不同阵列布局定位性能的可靠性,推导了利用无模糊相位差对匀速直线运动目标参数进行估计的CRLB。令g(i)=[ϕ1,i,ϕ2,i,···,ϕP,i]T,为ti时刻观测的P组无模糊相位差,则多次观测的无模糊相位差H=[g(1)T,g(2)T,···,g(i)T,···,g(I)T]T,则待估计参数w=[x0,y0,z0,α,β]T的方差为

    var(wi)[F1(w)]ii
    (21)

    其中,F(w)5×5的Fisher信息矩阵,则

    [F(w)]ij=E[lnp(H;w)wilnp(H;w)wj]
    (22)

    设来波信号的信噪比为SNR,则ϕp,i的均方根误差σϕ=1/SNR。则由式(22)可以得到待估参数的CRLB界为

    CRLB(w)={(Hw)TR1(Hw)}1
    (23)

    其中,R=σ2ϕIPI为协方差矩阵,IPIPI×PI的单位阵,可见信号的信噪比越大,Fisher信息矩阵中各项的值越大,CRLB越小。式(23)中

    Hw=[g(1)w···g(i)w···g(I)w]Tg(i)w=[ϕ1,iwϕ2,iw···ϕp,iw]T}
    (24)

    其中,ϕp,iw=[ϕp,ixθ,ϕp,iyθ,ϕp,izθ,ϕp,iα,ϕp,iβ]T,式(14)—式(18)给出了各项的解析式。因此,可以得到着靶点坐标估计及角度估计的CRLB。为了方便与灵敏度计算结果进行对比,将着靶点坐标Pθ=[xθ,yθ,zθ]T和目标运动方向A=[α,β]T的CRLB分别表示为

    C(Pθ)=CRLB(x)+CRLB(y)+CRLB(z)C(A)=CRLB(α)+CRLB(β)}
    (25)

    选择了3种空间阵列类型进行灵敏度的分析,分别是常见的中心辐射阵、面心辐射阵和参考阵元位于平行于z轴棱边中点的顶角辐射阵,如图2所示。为了更好地比较和分析3种阵型的着靶点坐标估计性能,3种阵型都选取了8组天线对来提取相位差数据,参考阵元分别位于坐标[0,0,2]T m, [0,0,0]T m和[2,2,2]T m处。

    图 2  3种常见空间阵列

    xoy平面上x[50,50]m,y[50,50]m的方形区域上以2×2m2的方格为单位均匀地选择2601个点作为待测的着靶点。以中心辐射阵为例,天线阵列与所选靶平面的相对位置关系如图3所示。设目标匀速直线运动速度为800m/s,波长λ=0.15m,数据提取点数I=500个,信噪比SNR=9dB,数据提取间隔T=1ms。选取弹道偏角α=10,弹道倾角β=80,观测量对着靶点坐标变化的灵敏度和坐标估计CRLB分布情况如图4图5所示。为了更清晰地对比靶平面上3种阵列灵敏度和CRLB由近到远的变化情况,在坐标原点O到点[50,50,0]T m这条线段上均匀选择6个点来做比较,如表1所示。

    图 3  阵列与靶平面的相对位置
    图 4  观测量对着靶点位置变化的灵敏度
    图 5  着靶点位置估计CRLB
    表 1  不同阵列的灵敏度和CRLB对比
    坐标 (m)(0,0,0)(10,10,0)(20,20,0)(30,30,0)(40,40,0)(50,50,0)
    中心辐射阵灵敏度 90.47 59.27 49.49 44.13 40.43 37.60
    面心辐射阵灵敏度 132.31 83.81 69.89 62.36 57.23 53.34
    顶角辐射阵灵敏度 92.06 59.83 50.14 44.83 41.16 38.35
    中心辐射阵CRLB 3.9e-5 5.9e-4 0.0017 0.0031 0.0049 0.0071
    面心辐射阵CRLB 4.8e-5 3.7e-4 0.001 0.0019 0.0029 0.0041
    顶角辐射阵CRLB 4.7e-5 4.1e-4 0.0011 0.002 0.0031 0.0045
    下载: 导出CSV 
    | 显示表格

    图4图5表1可见,中心辐射阵和面心辐射阵对着靶点坐标的灵敏度分布特征比较相似,在各个方向上灵敏度变化比顶角辐射阵更加均匀,并且具有着靶点距离靶中心越远灵敏度越低、CRLB越大的特点。从数值上看,面心辐射阵的灵敏度值最高,顶角辐射阵次之,中心辐射阵最低。这说明同样是选取8对接收天线提取相位差的情况下,面心辐射阵的相位差观测量对着靶点坐标的变化最敏感,而中心辐射阵最迟钝。CRLB的计算结果也验证了这一点,如图5所示,从靶平面上的整体数值分布来看,面心辐射阵的CRLB界最低,即无偏估计理论上可以达到的精度最佳,顶角辐射阵次之,中心辐射阵最差,与灵敏度计算结果反映的3种阵列的优劣情况一致。

    同样仿真条件下,观测量对目标运动角度参数变化的灵敏度和角度估计CRLB分布情况如图6图7所示。

    图 6  观测量对目标运动角度参数变化的灵敏度
    图 7  目标运动角度估计CRLB

    比较观测量对角度参数的灵敏度和角度估计CRLB的计算结果可以看出,在整个靶平面上,顶角辐射阵的灵敏度最大,CRLB也最低。中心辐射阵的灵敏度高于面心辐射阵,靶平面中部区域的CRLB也优于面心辐射阵,但是对于着靶点位于靶平面边缘的运动目标,面心辐射阵的目标参数估计CRLB则小于中心辐射阵。可见,对某些轨迹存在着观测量对角度参数灵敏度越大,CRLB反而越差的现象。通过式(13)和式(21)可以看出,观测量对某一个目标运动参数变化的灵敏度与其它参数的变化无关,而CRLB的计算过程中,不同的运动参数则互相影响。当假设其余参数已知时,即排除参数间相互影响,某个参数的CRLB与灵敏度的分布情况更加一致。仿真条件不变,假设着靶点坐标Pθ=[xθ,yθ,zθ]T和弹道倾角β已知,弹道偏角α的CRLB和灵敏度对比结果如图8图9所示。

    通过仿真计算结果可以看出,顶角辐射阵灵敏度最高同时CRLB最优,中心辐射阵次之,面心辐射阵最差。可见,当假设除弹道偏角α外的参数均为已知时,观测量对α变化的灵敏度和α估计CRLB分布情况更为一致。

    图 8  观测量对α变化的灵敏度
    图 9  α估计CRLB

    本文针对基于PDOA着靶点参数估计问题提出了一种利用灵敏度分析来判断不同阵列类型定位性能的方法。通过灵敏度和CRLB的计算结果对比可以看出,灵敏度分析的方法可以较为直观和准确地体现不同阵列定位性能的差异,为工程设计提供了一种阵列结构选型和比较的方法。

  • 图  1  风格迁移模型

    图  2  边缘提取过程示意图

    图  3  不同深度的边缘检测图

    图  4  转换网络结构

    图  5  不同卷积核风格迁移纹理对比

    图  6  损失函数对比图

    图  7  纹理比较

    图  8  本文算法迁移效果展示

    图  9  实验结果对比

    图  10  实验结果对比

    图  11  客观评价指标

    表  1  步长和感受野参数设置

    LayerConv1_2Conv2_2Conv3_3Conv3_4Conv4_3Conv4_4Conv5_3Conv5_4
    步长1244881616
    接受域514404492100196212
    下载: 导出CSV

    表  2  在BSDS500数据集上的客观评价指标

    指标ODSOISAP
    5层融合边缘检测图0.7600.7840.800
    6层融合边缘检测图0.7740.7970.798
    7层融合边缘检测图0.7770.7880.814
    8层融合边缘检测图0.7860.8020.822
    下载: 导出CSV

    表  3  迁移网络改进前后参数量对比

    对应卷积层参数量特征图通道数步长卷积核尺寸,参数量卷积核尺寸,参数量
    Conv13219×9, 1594183682×5×5, 98406400
    Conv26423×3, 88565763×3, 8856576
    Conv312823×3, 44282883×3, 4428288
    Resblock1-Resblock51282345455223454552
    Nearest_Conv1641/23×3, 576003×3, 57600
    Nearest_Conv2321/23×3, 737283×3, 73728
    Conv4319×9, 155522×5×5, 9600
    总参数量196.30×106135.29×106
    下载: 导出CSV

    表  4  风格迁移算法运行时间比较(s)

    方法Gatys[4]Huang[6]Johnson[10]Liu[18]本文
    图像尺寸256×25615.860.0180.0150.0830.013
    512×51254.850.0650.050.1410.038
    1024×1024214.440.2750.210.370.255
    下载: 导出CSV
  • [1] KYPRIANIDIS J E, COLLOMOSSE J, WANG Tinghuai, et al. State of the “Art”: a taxonomy of artistic stylization techniques for images and video[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(5): 866–885. doi: 10.1109/TVCG.2012.160
    [2] 袁野, 贾克斌, 刘鹏宇. 基于深度卷积神经网络的多元医学信号多级上下文自编码器[J]. 电子与信息学报, 2020, 42(2): 371–378. doi: 10.11999/JEIT190135

    YUAN Ye, JIA Kebin, and LIU Pengyu. Multi-context autoencoders for multivariate medical signals based on deep convolutional neural networks[J]. Journal of Electronics &Information Technology, 2020, 42(2): 371–378. doi: 10.11999/JEIT190135
    [3] GATYS L A, ECKER A S, and BETHGE M. A neural algorithm of artistic style[J]. arXiv preprint arXiv: 1508.06576, 2015.
    [4] GATYS L A, ECKER A S, and BETHGE M. Image style transfer using convolutional neural networks[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 2414–2423. doi: 10.1109/cvpr.2016.265.
    [5] LUAN Fujun, PARIS S, SHECHTMAN E, et al. Deep photo style transfer[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017: 6997–7005. doi: 10.1109/CVPR.2017.740.
    [6] HUANG Xun and BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017: 1510–1519. doi: 10.1109/iccv.2017.167.
    [7] LI Chuan and WAND M. Combining Markov random fields and convolutional neural networks for image synthesis[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 2479–2486. doi: 10.1109/CVPR.2016.272.
    [8] DUMOULIN V, SHLENS J, and KUDLUR M. A learned representation for artistic style[J]. arXiv preprint arXiv: 1610.07629, 2016.
    [9] CHEN Yang, LAI Yukun, and LIU Yongjing. CartoonGAN: generative adversarial networks for photo cartoonization[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 9465–9474. doi: 10.1109/CVPR.2018.00986.
    [10] JOHNSON J, ALEXANDRE A, and LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]. The 14th European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 694–711. doi: 10.1007/978-3-319-46475-6_43.
    [11] 王鑫, 李可, 宁晨, 等. 基于深度卷积神经网络和多核学习的遥感图像分类方法[J]. 电子与信息学报, 2019, 41(5): 1098–1105. doi: 10.11999/JEIT180628

    WANG Xin, LI Ke, NING Chen, et al. Remote sensing image classification method based on deep convolution neural network and multi-kernel learning[J]. Journal of Electronics &Information Technology, 2019, 41(5): 1098–1105. doi: 10.11999/JEIT180628
    [12] CHEN Chunfu, FAN Quanfu, MALLINAR N, et al. Big-little net: an efficient multi-scale feature representation for visual and speech recognition[J]. arXiv preprint arXiv: 1807.03848, 2018.
    [13] WANG Xin, YU F, DOU Ziyi, et al. SkipNet: Learning dynamic routing in convolutional networks[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 420–436. doi: 10.1007/978-3-030-01261-8_25.
    [14] LIU Yun, CHENG Mingming, HU Xiaowei, et al. Richer convolutional features for edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1939–1946. doi: 10.1109/TPAMI.2018.2878849
    [15] XIE Saining and TU Zhuowen. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(1): 3–18. doi: 10.1007/s11263-017-1004-z
    [16] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 740–755. doi: 10.1007/978-3-319-10602-1_48.
    [17] SAIF M M and SVETLANA K. WikiArt emotions: an annotated dataset of emotions evoked by art[C]. The 11th International Conference on Language Resources and Evaluation, Miyazaki, Japan, 2018: 1225–1238.
    [18] LIU Xiaochang, CHENG Mingming, LAI Yukun, et al. Depth-aware neural style transfer[C]. The Symposium on Non-Photorealistic Animation and Rendering, California, USA, 2017: 4. doi: 10.1145/3092919.3092924.
  • 加载中
图(11) / 表(4)
计量
  • 文章访问数:  1116
  • HTML全文浏览量:  705
  • PDF下载量:  74
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-25
  • 修回日期:  2021-01-30
  • 网络出版日期:  2021-07-21
  • 刊出日期:  2021-08-10

目录

/

返回文章
返回