高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于扩散生成对抗网络的文本生成图像模型研究

赵宏 李文改

赵宏, 李文改. 基于扩散生成对抗网络的文本生成图像模型研究[J]. 电子与信息学报, 2023, 45(12): 4371-4381. doi: 10.11999/JEIT221400
引用本文: 赵宏, 李文改. 基于扩散生成对抗网络的文本生成图像模型研究[J]. 电子与信息学报, 2023, 45(12): 4371-4381. doi: 10.11999/JEIT221400
Wenze SHAO, Miaomiao ZHANG, Haibo LI. Tiny Face Hallucination via Relativistic Adversarial Learning[J]. Journal of Electronics & Information Technology, 2021, 43(9): 2577-2585. doi: 10.11999/JEIT200362
Citation: ZHAO Hong, LI Wengai. Text-to-image Generation Model Based on Diffusion Wasserstein Generative Adversarial Networks[J]. Journal of Electronics & Information Technology, 2023, 45(12): 4371-4381. doi: 10.11999/JEIT221400

基于扩散生成对抗网络的文本生成图像模型研究

doi: 10.11999/JEIT221400
基金项目: 国家自然科学基金(62166025),甘肃省重点研发计划(21YF5GA073)
详细信息
    作者简介:

    赵宏:男,教授,博士生导师,研究方向为并行与分布式处理、嵌入式系统、系统建模与仿真、深度学习、自然语言处理等

    李文改:女,硕士生,研究方向为图像生成等

    通讯作者:

    李文改 liwengai@foxmail.com

  • 中图分类号: TN911.73; TP183

Text-to-image Generation Model Based on Diffusion Wasserstein Generative Adversarial Networks

Funds: The National Natural Science Foundation of China (62166025), The Science and Technology Project of Gansu Province (21YF5GA073)
  • 摘要: 文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在D-WGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。
  • 成对载波多址复用( Paired Carrier Multiple Access, PCMA)是一种用于提高卫星通信容量的技术[1],目前已得到广泛的应用。其非合作接收混合信号盲分离只能利用单通道两路数字同频混合信号盲分离方法来实现[25]

    单通道盲分离由于存在较多未知因素,求解难度远高于正定盲分离,对不同的通信信号已经产生了一些针对性算法[69]。这些成果都集中在算法研究上,最初对算法性能的度量主要通过计算机仿真实现,且只分析了低阶调制混合信号的分离,廖灿辉等人[1012]从双信号联合序列检测的最大似然准则出发,利用Forney 方法推出分离性能上界的解析表达式,但也是依托于维特比算法研究基础上,当前迫切需要摆脱分离算法束缚推导从信号本身角度出发的分离性能界。

    本文针对MPSK, MQAM调制PCMA混合信号,从发送信号角度出发推导与分离算法无关的性能界表达式,首先将问题简化为单路信号接收情形分析其分离性能界,然后扩展为两路同频混合信号形式,推导混合信号单通道盲分离性能界,最后通过仿真对影响性能界的相关因素进行了分析。

    PCMA系统中,地面站接收到两个MPSK或QAM混合而成的调制信号,其调制方式相同、载波频率以及符号速率极为接近[1]。将接收信号按符号速率进行采样,有

    yk=H1ej(2πf1kTs+θ1)x1,k+H2ej(2πf2kTs+θ2)x2,k+vk
    (1)

    其中,Hi, fi, θi分别是第i路信号幅度、频偏、载波初始相位;vk为高斯白噪声,方差σ2; x1,kx2,k分别为有用信号和干扰信号的数字基带调制波形,Ts为符号周期。假设两路信号的调制方式相同,且两路信号相互统计独立,则xi,k可以表示为

    xi,k=L1k=L1ai,kgi(kTsmTs+τi)
    (2)

    其中,τi(i=1, 2)是第i路信号的定时偏差,a1,ka2,k(k=0, 1, ···)分别为两路发送信号序列,其取值与调制方式有关;gi(·)是等效的信道脉冲响应,包括成型滤波器、信道滤波器以及匹配滤波器等,滤波器持续的有效区间为[–L1Ts, L1Ts]。

    单通道盲分离的目的是根据接收序列{yk,k=0,1,···}估计出两路信号的符号序列{a1,k,a2,k,k=0,1,···},在Gauss白噪声信道下,分离错误由信号传输中噪声引起。本文首先分析单路信号接收时(即H2=0)解调性能界,然后推广至两路同频混合信号接收形式(PCMA信号),推导混合信号单通道盲分离性能界。

    首先研究单路信号接收(即H2=0)情况[13],发送符号与接收符号分别用XY表示。对于MPSK调制信号,每个发送符号有M种取值,表示为aγ=dζej2γφζ, γ={0,1,···,M1},其中ζ=logM2为每个发送符号携带比特信息位数,φζ=π/2ζ。经AWGN信道得到接收信号y=yc+jys,其中ycys分别表示接收信号y的实部与虚部,则其概率密度函数为2维高斯函数[13]

    pY(y)=f{ycdζcos(2γφζ)}f{ysdζsin(2γφζ)}
    (3)

    其中,dζ=2Es/N0=2ζEb/N0, EsEb分别为接收信号每符号与每比特能量,N0为单边带噪声功率谱密度,f(t)=12πet2/2。以8PSK调制信号为例,图1给出了调制信号比特与符号的空间映射,符号{aγ|γ=0,1,···,M1}的接收信号判决区域为Rm

    图 1  单路8PSK调制信号空间映射

    格雷映射方式下,令Pm为发送a0情况下接收符号在判决区域Rm的概率,则

    Pm=pY (Y)=Pr{YRm|X=a0,m<M}
    (4)

    另注意到对于MPSK信号,式(5)关系成立:

    P0>P1=PM1>···>PM/21=PM/2+1>PM/2
    (5)

    结合式(3)、式(4)、式(5)可知,在具有加性高斯白噪声信道中,单路MPSK调制信号误符号率(SER),记为Ps[13]

    Ps=M1m=1Pm
    (6)

    PCMA信号接收时,两路信号发送分量分别用X1X2表示,接收用Y表示,由于两路信号存在时延差(Δτ=τ1τ2),第1路信号分量最佳采样位置与第2路信号分量存在符号串扰,因此L=n时空间映射是以L=n–1时空间映射为中心,向M个方向等幅度对称扩散所得,考虑到扩散后最小欧式距离减小,因此随着符号串扰长度的增加性能界逐渐变差,可见本文考虑的L=1时分离性能界为分离下界,同时定义等效幅度比为h2/h1=G2,0/G1,0。此时相偏对混合信号空间映射判决区域的影响有限,若推导第1路信号发送分量判决正确区域,可由符号串扰长度L=1, θ1θ2=0时空间映射判决区域近似。

    对于符号串扰长度L=1的PCMA混合信号,每个发送符号对(X1, X2)有M2种取值,其中每一路发送符号依旧表示为aγ=dζej2γφζ,γ={0,1,···,M1}。定义混合信号空间映射不同区域,以此为基础进行性能界分析。首先考虑MPSK调制方式混合信号,两路信号分量频偏为零,BPSK调制与QPSK调制方式下混合信号比特与符号的空间映射分别如图2图3所示。其中两路信号分量能量分别为E1=Es(1+η2)N0, E2=η2Es(1+η2)N0, η=h2/h1

    图 2  BPSK调制PCMA信号比特与符号映射
    图 3  QPSK调制PCMA信号比特与符号映射

    定义:

    Pγm=Pr{YRm|X1=a0,X2=aγ},γ{0,1,···,M1}
    (7)

    aγ=acγ+jasγ,则存在

    Pm=1MM1γ=0Pγm
    (8)

    由本节分析可知,所推导为PCMA混合信号分离性能下界,即

    PsM1m=1Pm
    (9)

    对于BPSK调制混合信号,结合式(7)与式(8)可得

    Pm={121γ=01πexp(v2)0exp[(uacγ)2]dudv,m=0121γ=01πexp(v2)0exp[(u+acγ)2]dudv,m=1
    (10)

    此时分离误符号率Ps与误比特率(BER)Pb相同,下界为

    Ps=PbP1
    (11)

    同理可得QPSK调制混合信号Pm(Pm=PMm),如式(12)。

    Pm={143γ=01π0exp[(uacγ)2]{uuexp[(vasγ)2]dv}du,m=0143γ=01π0exp[(vasγ)2]{vvexp[(uacγ)2]dv}du,m=1143γ=01π0exp[(u+acγ)2]{uuexp[(vasγ)2]dv}du,m=2
    (12)

    将式(12)代入式(9)可得误符号率Ps下界。

    接下来推导8PSK调制PCMA信号分离性能界,由于判决区域Rm存在非通情况,此时调制信号比特与符号的空间映射将比单路信号映射复杂得多,图4给出了混合信号接收的空间映射,阴影部分表示X1=a0情况下接收符号在判决区域R0,即正确判决区域,其余判决区域可类推。

    图 4  X1=a0时正确判决区域R0

    之所以会出现图4所示3种映射情况,是由于随着h2/h1取值由0到1, X1=0X10对应接收混合信号的空间映射间最小欧式距离周期变化,将此最小欧氏距离定义为判决误差最小欧氏距离。当h2/h1<tan(π/8)时,由式(8)可推导出对应Pm(Pm=PMm),如式(13)。继而由式(9)可得误符号率Ps。当tan(π/8)<h2/h1<2/2时,判决区域Rm出现不连通情况,被分割在若干扇形与环形中,此时换元u=rcosϕ, v=rsinϕ, dudv=rdrdϕ,如式(14)定义。

    Pm={187γ=01π0exp[(uacγ)2]{utan(π/8)utan(π/8)exp[(vasγ)2]dv}du,m=0187γ=01π0exp[(uacγ)2]{utan(3π/8)utan(π/8)exp[(vasγ)2]dv}du,m=1187γ=01π0exp[(vasγ)2]{utan(π/8)utan(π/8)exp[(uacγ)2]du}dv,m=2187γ=01π0exp[(u+acγ)2]{utan(3π/8)utan(π/8)exp[(vasγ)2]dv}du,m=3187γ=01π0exp[(u+acγ)2]{utan(π/8)utan(π/8)exp[(vasγ)2]dv}du,m=4
    (13)
    r1=12[(E1E2)+(2E22)2+(E12E22)2]r2=12[(2E22)2+(E12E22)2+E21+E22]r3=12[E21+E22+(2E22)2+(E1+2E22)2]}
    (14)

    采取映射空间分集方法结合式(7)求得Pγm

    Pγ0=1ππ/8π/8{r3exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/4π/8{r3r1exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/8π/4{r3r1exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/8π/8{r10exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ
    (15)
    Pγ0=1ππ/8π/8{r3exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1π3π/8π/4{r2r1exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/4π/8{r3r2exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/8π/4{r3r2exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/43π/8{r2r1exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ+1ππ/8π/8{r10exp[(rcos(ϕ)acγ)2(rsin(ϕ)asγ)2]rdr}dϕ
    (16)

    同理可计算得到其余Pγm{m=1,2,···,7}计算式,将Pγm代入式(8)得Pm,进而由式(9)得到误符号率Ps。当h2/h1>2/2时,由式(7)可推导出对应Pγ0,如式(16)。同理可计算得到其余Pγm{m=1,2,···,7}计算式,进而由式(8),式(9)得到误符号率Ps

    16PSK及更高阶PSK调制方式PCMA混合信号误符号率可由上述空间映射分集算法求得,最终误比特率Pb如式(17)。

    Pb={12(P1+2P2+P3),M=413(P1+2P2+P3+2P4+3P5+2P6+P7),M=812(8k=1Pk+5k=2Pk+P5+2P6+P7),M=16
    (17)

    综上所述,利用映射空间分集算法成功推导出MPSK调制PCMA混合信号分离性能界,现在考虑QAM调制情况,以8QAM调制方式为例计算解调误比特率联合界。随着h2/h1取值由0到1会出现图5所示接收混合信号4种空间映射情况。

    图 5  8QAM调制PCMA信号正确判决区域

    与MPSK调制方式不同,由于符号空间映射不对称,QAM调制方式下接收混合信号分离BER与发送符号有关,由图5可见发送符号空间映射分为两类,分别针对X1=a0X1=a2推导性能界,其空间映射分别用“×”和“+”表示,判决正确区域分别用阴影“”和“”表示。推导这两种情况下接收SER与BER。

    定义:

    Pγ0,m=Pr{YRm|X1=a0,X2=aγ},γ{0,1,···,M1}Pγ2,m=Pr{YRm|X1=a2,X2=aγ},γ{0,1,···,M1}}
    (18)

    则存在

    Pm=12MM1γ=0Pγ0,m+12MM1γ=0Pγ2,m
    (19)

    h2/h1<1/3时,结合式(7),式(8)可得此时Pγ0,m。同样由图5相应区域划分可计算得到Pγ2m,由式(19)可得Pm(Pm=PMm),进而由式(9)可得误符号率Ps下界,由式(17)可得误比特率Pb下界。

    当前PCMA信号盲分离主要针对为BPSK, QPSK, 8PSK以及8QAM 4种调制类型,本文针对上述4种调制类型给出了混合信号盲分离SER和BER性能界。其余调制类型PCMA混合信号为不常见或者处于分离算法待研究阶段,因此并未给出推导结果,但是依据本文思路也可以进行推导。

    以下仿真中,统一升余弦滚降系数为0.35,单倍采样接收,两路信号分量频偏值为0。

    图6(a)给出了BPSK调制方式下本文算法性能界(式(10)计算结果)与理想情况下Viterbi估计结果[14],并将其与粒子滤波分离结果、PSP分离结果进行比较。仿真条件:两路信号分量等效幅度比1.0:0.8,其余参数相同。PSP算法滤波器持续的有效区间为[–2Ts, 2Ts],盲分离时取LMS更新步长ρ=0.01,粒子滤波算法中取粒子数为300, D=3[14],两路信号相偏为零。

    图 6  性能界计算结果与对比

    图6(a)可见,本文性能界曲线与理想情况下Viterbi估计结果吻合。特别是高信噪比条件下,两者基本一致,从理论上证明本文给出的分离性能下界计算方法合理性。由图6(a)还可以看出,实验条件下粒子滤波算法与PSP算法均取得良好性能。随着等效滤波器符号串扰长度的增加,信道估计精度的提高,以及粒子数等参数选取更加充分,PSP算法与粒子滤波算法性能将更加趋近于性能界,但是同时伴随着复杂度的提升,可见本文性能界推导为分离算法评价提供指标,也为分离算法参数选取提供依据。

    图6(b)给出了MPSK与QAM调制方式下本文性能界与理想情况下Viterbi算法(即参数已知情况下PSP算法)估计结果,可见算法仿真实验结果拟合本文性能界曲线,证明性能界推导的合理性。本文导出性能界与序列检测Viterbi 算法均依据最大后验概率准则,因此结果相近。但由于本文导出性能界从信号模型空间映射角度出发,为与信号调制本身相关的理论推导结果,而序列检测Viterbi 算法为仿真实验结果,其与仿真数据量等实验参数有关,在数据量无穷时渐渐接近于本文导出性能界,因此两者不同。

    当前PCMA通信主要调制方式为BPSK, QPSK, 8PSK以及8QAM 4种调制类型,图7图8给出了上述调制方式下,本文性能界推导结果,参数设置为等效幅度比1.0:0.8。可见随着调制阶数增加,同等信噪比条件下混合信号分离性能界变差。对比图7图8可知,BPSK调制与QPSK调制PCMA信号分离BER性能完全相同,而两者SER性能却存约2倍差异,这是由于QPSK调制信号每符号代表2个比特信息,仅当这2个比特均判决正确时对应的符号才正确,因此相同BER性能的BPSK与QPSK调制PCMA信号分离SER性能不同。

    图 7  PCMA信号SER性能界
    图 8  PCMA信号BER性能界

    两路信号分量等效幅度比影响混合信号空间映射最小欧式距离,进而影响混合信号分离性能。图9(a)图9(b)分别针对QPSK与8PSK调制方式PCMA混合信号,给出不同等效幅度比对分离性能界影响曲线。

    图 9  h1/h2对PCMA信号分离性能界影响曲线

    可见,QPSK调制PCMA信号盲分离中,分离性能界随着等效幅度比增加而降低,这是由于QPSK调制PCMA混合信号判决误差最小欧式距离与两路信号分量等效幅度比成正比,等效幅度比的增加对应更大的最小欧氏距离,进而对应更低的分离性能界。8PSK调制PCMA信号分离性能界同样随着判决误差最小欧式距离增加而减小。

    本文针对PCMA混合信号,从发送信号模型出发,利用最大似然准则,针对PCMA混合信号推导得到其与分离算法无关的分离性能界表达式,对未来PCMA混合信号盲分离算法有着可行性指导与性能评价作用。若两路信号分量存在频偏,固定采样点位置分析时可将频偏影响纳入到相偏影响,进一步纳入到等效幅度比影响中,因此本文性能界推导依然适用。

  • 图  1  D-WGAN整体结构

    图  2  CLIP预训练编码器

    图  3  扩散模型

    图  4  生成器与判别器的结构

    图  5  生成器的训练过程

    图  6  D-WGAN与DM-GAN,DF-GAN生成的图像

    图  7  D-WGAN与WGAN在数据集25-Gaussians上的表现

    图  8  D-WGAN模型在MSCOCO数据集上的召回率-精确率、FID-IS评分

    图  9  D-WGAN与WGAN在CUB-200验证集上的表现

    表  1  数据集

    数据集训练集图像数量测试集图像数量文本描述/图像类别
    MSCOCO82 k40 k580
    CUB-2008 8552 93310200
    下载: 导出CSV

    表  2  不同模型的FID分数对比

    模型MSCOCOCUB-200
    FID↓IS↑FID↓IS↑
    StackGAN[12]74.058.45±0.0351.893.70±0.04
    EFF-T2I[13]11.174.23±0.05
    AttnGAN[14]35.4925.83±0.4723.984.36±0.03
    DM-GAN [15]32.6430.49±0.5716.094.75±0.07
    DF-GAN[16]24.2414.815.10±0.05
    DALLE[17]27.5017.90±0.0356.10
    VLMGAN [18]23.6226.54±0.4316.044.95±0.04
    SSA-GAN [19]16.585.17±0.08
    D-WGAN19.7431.52±0.4510.956.77±0.03
    下载: 导出CSV

    表  3  人类评估员评分结果

    真实性文本-图像一致性
    w/o CLIP–73.229.3
    w/ CLIP28.270.9
    下载: 导出CSV
  • [1] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139–144. doi: 10.1145/3422622
    [2] 李云红, 朱绵云, 任劼, 等. 改进深度卷积生成式对抗网络的文本生成图像[J/OL]. 北京航空航天大学学报. http://kns.cnki.net/kcms/detail/11.2625.V.20220207.1115.002.html, 2022.

    LI Yunhong, ZHU Mianyun, REN Jie, et al. Text-to-image synthesis based on modified deep convolutional generative adversarial network[J/OL]. Journal of Beijing University of Aeronautics and Astronautics. http://kns.cnki.net/kcms/detail/11.2625.V.20220207.1115.002.html, 2022.
    [3] 谈馨悦, 何小海, 王正勇, 等. 基于Transformer交叉注意力的文本生成图像技术[J]. 计算机科学, 2021, 49(2): 107–115. doi: 10.11896/jsjkx.210600085

    TAN Xinyue, HE Xiaohai, WANG Zhengyong, et al. Text-to-image generation technology based on transformer cross attention[J]. Computer Science, 2021, 49(2): 107–115. doi: 10.11896/jsjkx.210600085
    [4] 赵雅琴, 孙蕊蕊, 吴龙文, 等. 基于改进深度生成对抗网络的心电信号重构算法[J]. 电子与信息学报, 2022, 44(1): 59–69. doi: 10.11999/JEIT210922

    ZHAO Yaqin, SUN Ruirui, WU Longwen, et al. ECG reconstruction based on improved deep convolutional generative adversarial networks[J]. Journal of Electronics &Information Technology, 2022, 44(1): 59–69. doi: 10.11999/JEIT210922
    [5] ARJOVSKY M and BOTTOU L. Towards principled methods for training generative adversarial networks[C]. The 5th International Conference on Learning Representations. Toulon, France, 2017.
    [6] JALAYER M, JALAYER R, KABOLI A, et al. Automatic visual inspection of rare defects: A framework based on gp-wgan and enhanced faster R-CNN[C]. 2021 IEEE International Conference on Industry 4.0, Artificial Intelligence, and Communications Technology, Bandung, Indonesia, 2021: 221–227.
    [7] WANG Zhendong, ZHENG Huangjie, HE Pengcheng, et al. Diffusion-GAN: Training GANs with diffusion[J]. arXiv: 2206.02262, 2022.
    [8] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]. The 38th International Conference on Machine Learning, Westminster, UK, 2021: 8748–8763.
    [9] HO J, JAIN A, and ABBEEL P. Denoising diffusion probabilistic models[C]. The 34th Conference on Neural Information Processing Systems, Vancouver, Canada, 2020: 6840–6851.
    [10] CHONG Minjin and FORSYTH D. Effectively unbiased FID and inception score and where to find them[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA 2020: 6069–6078.
    [11] KYNKÄÄNNIEMI T, KARRAS T, LAINE S, et al. Improved precision and recall metric for assessing generative models[C]. The 33rd Conference on Neural Information Processing Systems, Vancouver, Canada, 2019: 32.
    [12] ZHANG Han, XU Tao, LI Hongsheng, et al. StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 5908–5916.
    [13] SOUZA D M, WEHRMANN J, and RUIZ D D. Efficient neural architecture for text-to-image synthesis[C]. 2020 International Joint Conference on Neural Networks, Glasgow, UK, 2020: 1–8.
    [14] XU Tao, ZHANG Pengchuan, HUANG Qiuyuan, et al. AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 1316–1324.
    [15] ZHU Minfeng, PAN Pingbo, CHEN Wei, et al. Dm-GAN: Dynamic memory generative adversarial networks for text-to-image synthesis[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 5795–5803.
    [16] TAO Ming, TANG Hao, WU Fei, et al. DF-GAN: A simple and effective baseline for text-to-image synthesis[J]. arXiv: 2008.05865, 2020.
    [17] RAMESH A, PAVLOV M, GOH G, et al. Zero-shot text-to-image generation[C]. The 38th International Conference on Machine Learning, Westminster, UK, 2021: 8821–8831.
    [18] CHENG Qingrong, WEN Keyu, and GU Xiaodong. Vision-language matching for text-to-image synthesis via generative adversarial networks[J]. IEEE Transactions on Multimedia, To be published.
    [19] LIAO Wentong, HU Kai, YANG M Y, et al. Text to image generation with semantic-spatial aware GAN[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 18166–18175.
    [20] BAIOLETTI M, DI BARI G, POGGIONI V, et al. Smart multi-objective evolutionary GAN[C]. 2021 IEEE Congress on Evolutionary Computation, Kraków, Poland, 2021: 2218–2225.
    [21] YIN Xusen and MAY J. Comprehensible context-driven text game playing[C]. 2019 IEEE Conference on Games, London, UK, 2019: 1–8.
  • 期刊类型引用(4)

    1. 边舒芳,张伟. 基于改进LSTM的低压配电网日线损率预测方法. 粘接. 2025(01): 188-192 . 百度学术
    2. 杜佳俊,兰红,王超凡. 基于扩散模型微调的局部定制图像编辑算法. 计算机应用研究. 2025(02): 623-629 . 百度学术
    3. 高欣宇,杜方,宋丽娟. 基于扩散模型的文本图像生成对比研究综述. 计算机工程与应用. 2024(24): 44-64 . 百度学术
    4. 徐飞,邓亚萍,罗钦,陈兴. 基于优化卷积网络的医疗设备成像研究. 自动化与仪器仪表. 2024(12): 56-61 . 百度学术

    其他类型引用(9)

  • 加载中
图(9) / 表(3)
计量
  • 文章访问数:  1180
  • HTML全文浏览量:  654
  • PDF下载量:  348
  • 被引次数: 13
出版历程
  • 收稿日期:  2022-11-08
  • 修回日期:  2023-03-01
  • 网络出版日期:  2023-03-06
  • 刊出日期:  2023-12-26

目录

/

返回文章
返回