Hole Filling for Virtual View Synthesized Image by Combining with Contextual Feature Fusion

ZHOU Yang; CAI Maomao; HUANG Xiaofeng; YIN Haibing

doi:10.11999/JEIT230181

Volume 46 Issue 4

Apr. 2024

Turn off MathJax

Article Contents

Article Navigation > Journal of Electronics & Information Technology > 2024 > 46(4): 1479-1487

ZHOU Yang, CAI Maomao, HUANG Xiaofeng, YIN Haibing. Hole Filling for Virtual View Synthesized Image by Combining with Contextual Feature Fusion[J]. Journal of Electronics & Information Technology, 2024, 46(4): 1479-1487. doi: 10.11999/JEIT230181

Citation:

ZHOU Yang, CAI Maomao, HUANG Xiaofeng, YIN Haibing. Hole Filling for Virtual View Synthesized Image by Combining with Contextual Feature Fusion[J]. Journal of Electronics & Information Technology, 2024, 46(4): 1479-1487. doi: 10.11999/JEIT230181

Citation:

PDF( 5542 KB)

Hole Filling for Virtual View Synthesized Image by Combining with Contextual Feature Fusion

doi: 10.11999/JEIT230181

School of Communication Engineering, HangZhou DianZi University, Hangzhou 310018, China

Funds: The Natural Science Foundation of Zhejiang Province (LY21F020021), The National Natural Science Foundation of China (61972123, 61901150)

Received Date: 2023-08-06
Rev Recd Date: 2023-12-21

Available Online: 2024-01-26

Publish Date: 2024-04-24

Abstract

Abstract

Due to the foreground occlusion of the reference texture and the difference in angle-of-views, many holes can be found in the synthesized images produced by depth image-based virtual view rendering. Prior disocclusion methods are time-consuming and need more texture consistency between hole-filled regions and the synthesized image. In this paper, depth maps are first pre-processed to reduce foreground penetration during hole filling. Then, for holes in the synthesized images after 3D warping, an image generation network based on the architecture of a Generative Adversarial Network (GAN) is designed to fill the holes. This network consists of two sub-networks. The first network generates the texture and structure information of hole regions, while the second network adopts an attention module combining contextual feature fusion to improve the quality of the hole-filled regions. The proposed network can effectively solve the problem of the hole-filling areas being prone to producing artifacts when fast motion exist in the foreground objects. Experimental results on multi-view video plus depth sequences show that the proposed method is superior to the existing methods in both subjective and objective quality.
- Virtual view rendering,
- Hole filling,
- Feature fusion,
- Contextual features

FullText(HTML)

1. 引言

虚拟视点合成技术被广泛应用在虚拟现实、自由视点视频等领域，其中基于深度图的绘制(Depth Image-Based Rendering, DIBR)是虚拟视点合成中最常用的技术。但在绘制过程中，由于前景遮挡、左右视点间的视角差异、深度图信息不准确以及计算过程中的舍入误差均会导致虚拟视点图像中存在大面积的空洞、伪影及裂缝^[1]，尤其是大面积的空洞严重降低了虚拟视点的质量，影响人们的观赏体验。

基于图像块匹配的填充技术^[2]是解决DIBR合成图像空洞问题的最主要的方法，它通过在空域范围内计算不同图像块的优先级，将源区域图像块复制到空洞区域。Zhu等人^[3]在视点合成图像中使用块匹配来填补空洞。但是，由于高清虚拟视图中的空洞紧挨前景一侧，此类方法会误匹配到前景信息来填充空洞区域，导致图像纹理不一致。此外，对于图像边界处的空洞，块匹配法难以搜索到准确的匹配信息。为了减少前景干扰，Chang等人^[4]在块匹配修复算法中添加深度信息来约束前景信息，但如果深度图中的前背景边界与彩色图中的边界不匹配时就会产生伪影。Cheng等人^[5]对深度图的前景对象进行形态学处理，提高前景边界像素的准确性。Anh等人^[6]使用滤波法改善深度图的质量来提高填充效果。Rahaman等人^[7]使用高斯混合模型生成背景参考帧，使虚拟视点的纹理和结构信息得到了良好保持。Luo等人^[8]通过移除虚拟视图中的前景区域和背景重建来减少前景干扰。以上方法都对深度图的质量有一定要求，一般需要对深度图进行预处理，但会带来深度图的像素失真问题。

近年，深度学习在视频图像领域展现了卓越的性能，其中生成对抗网络(Generative Adversarial Networks, GAN)^[9]通过生成器和判别器的相互博弈，能生成更逼近真实图像的伪图像。改进后的DCGAN模型^[10]在生成器和判别器中加入卷积转置层，提升了生成图像质量和网络训练的稳定性。鉴于GAN能有效地生成逼近真实图像数据的伪数据，有学者将其应用于图像修复领域。Iizuka等人^[11]设计了全局内容判别器与局部内容判别器，使得修复区域能在全局和局部上都与原始图像保持良好的一致性。Li等人^[12]根据相邻像素之间的相关性设计了一种循环特征推理网络，该网络先学习缺损区域的边界特征，再将其作为额外信息来进行下一步的特征推理。Xu等人^[13]提出了一种从边缘到图像的修复网络，先修复缺失区域的边缘图，然后在边缘图辅助下完成缺失区域修复。Shin等人^[14]对GAN中的扩张卷积使用共同的权重来减少训练时的计算量。孙磊等人^[15]通过加强生成器和判别器的特征联系来捕获远处的像素特征。文献[16]在网络模型中加入注意力机制，通过计算不同卷积特征块的相似性来寻找缺损区域的匹配特征。Pathak等人^[17]将基于GAN架构的卷积神经网络应用在人脸生成中，使用方形掩膜训练重建人脸的纹理结构。Liu等人^[18]采用部分卷积并结合自由形状掩膜训练修复缺损图像。这些基于GAN架构的图像修复网络均取得了良好的效果。

但是，图像修复一般是研究如何有效地生成前景信息，比如人脸结构等。然而，视点绘制中的空洞填充是重建被参考视点的前景所遮挡的背景区域。DIBR图像的空洞常呈现以下3个特点：(1)空洞面积较大；(2)位于前景周边或图像边缘；(3)空洞区域属于背景。此外，合成视图中前景周边的空洞常存在复杂的运动信息，且前后帧间的前景因运动会发生改变，这给虚拟视点空洞填充带来了新的挑战。基于这些特点，先前居中的方形掩膜和自由形状掩膜都不能有效地引导网络学习纹理特征。为了更准确地填充DIBR图像的空洞，本文设计了一种结合上下文特征融合的虚拟视点图像空洞填充网络(Context Feature Fusion Net, CFF-Net)，主要贡献如下：

(1) 率先将深度卷积神经网络应用在虚拟视点绘制图像的空洞填充上，且性能优于已有的虚拟视点空洞填充方法。

(2) 考虑到快速运动的前景信息，采用一种结合上下文特征融合的注意力模块来捕捉合理的背景特征。该网络是基于卷积编-解码结构，通过将DIBR图像和自制的掩膜图作为输入，使用多层卷积编解码学习到的特征来生成空洞区域的像素。

(3)在虚拟视点绘制图像上通过线性插值、镜像反转生成绘制视点空洞填充网络的训练掩膜图，这类掩膜图更符合绘制图像中空洞特征。

2. 本文方法

2.1 虚拟视点合成

虚拟视点合成流程如所示，首先对深度图进行预处理，接着通过3D-warping获取虚拟视点图像，然后对虚拟视图进行空洞填充获得目标视图。3D-warping是先将参考深度图中位置坐标为 $(x,y)$ 的深度值投影到3维空间坐标 $[X{\text{,}}Y{\text{,}}Z]$ 中；接着将3维空间中的深度信息再投影到目标平面，获得虚拟视图的位置坐标 $(u,v)$ ；然后，将参考视图坐标 $(x,y)$ 中的纹理像素信息赋值给 $(u,v)$ 处的虚拟视图，核心公式为

图 1 虚拟视点绘制流程框图

下载: 全尺寸图片幻灯片

${{\boldsymbol{s}}_{\text{r}}}{[x,y,1]^{{\mathrm{T}}} } = {{\boldsymbol{K}}_{\text{r}}}{{\boldsymbol{R}}_{\text{r}}}{[X{\text{,}}Y{\text{,}}Z]^{{\mathrm{T}}} } + {{\boldsymbol{K}}_{\text{r}}}{{\boldsymbol{t}}_{\text{r}}}\;\;$

(1)

${{\boldsymbol{s}}_{\text{v}}}{[u,v,1]^{{\mathrm{T}}} } = {{\boldsymbol{K}}_{\text{v}}}{{\boldsymbol{R}}_{\text{v}}}{[X,Y,Z]^{{\mathrm{T}}} } + {{\boldsymbol{K}}_{\text{v}}}{{\boldsymbol{t}}_{\text{v}}}$

(2)

其中， ${\boldsymbol{s}}$ 是归一化后的深度信息，下标r和v分别表示参考视图和虚拟视图， $(u,v)$ 表示在参考视图 $(x,y)$ 坐标下的参考视图信息投影至虚拟视图时的坐标， $[X,Y,Z]$ 表示世界坐标系中的3维坐标，上标 ${\text{T}}$ 表示矩阵转置， ${\boldsymbol{K}}$ 是相机内参矩阵， ${\boldsymbol{R}}$ 是旋转矩阵， ${\boldsymbol{t}}$ 是平移矩阵。

2.2 预处理

在3D-warping中，因前景遮挡产生的空洞常紧贴前景对象，导致空洞填充时易误匹配到前景信息。通过对参考深度图进行前景轮廓膨胀处理可减少前景信息的干扰，深度图前景边缘膨胀公式为

$\begin{split} & D(i,j \pm k) = D(i,j),{\text{ while }}E(i,j) \\ & \quad= = 255\& \& D(i,j \pm k) \lt D(i,j) \end{split}$

(3)

其中, $D(i,j)$ 和 $E(i,j)$ 分别表示深度图和由Canny算子边缘检测法生成的边缘引导图中(i,j)处的边缘像素深度值， $k$ =2。以边缘图为引导，对深度图在前景边缘处像素进行水平方向膨胀处理，膨胀区域可认为是未遮挡的前景，3D-warping能完整地投射膨胀区域的深度和彩色图像信息。图2(a)和图2(b)分别为Ballet序列前景膨胀前后的DIBR图像，其中图2(b)的前景和空洞之间出现了一条背景裂缝，这有利于后续空洞填充中获取更多的背景信息，减轻前景渗透。

图 2 深度图前景轮廓膨胀前后的绘制图像对比图

下载: 全尺寸图片幻灯片

此外，由于深度图在前景背景交界处不连续，会造成背景像素误投影而产生伪影。比如虚拟视图 $(u,v)$ 处的深度值为d₁，由于3D-warping中的取整运算，投射到 $(u,v)$ 的坐标可能会重复出现，得到 $(u,v)$ 处的深度值为d₂。当d₂比d₁小将会出现伪影，即背景信息被误投影到前景中。本文设定同一区域的深度值保持不变且背景区域的深度值须大于前景区的深度值，通过比较这两个深度值的大小来消除伪影，即

${D}_{\text{v}}(u,v)=\left\{\begin{aligned} &{d}_{\text{2}},\text{ }{d}_{\text{1}} \lt {d}_{\text{2}}\\ & {d}_{\text{1}},\text{ }其他 \end{aligned}\right.$

(4)

其中，D_v $(u,v)$ 表示虚拟视点深度图在坐标 $(u,v)$ 处的深度值。此外裂缝采用中值滤波进行处理。

预处理虽能有效消除虚拟视点图像中的伪影和裂缝，但无法有效重建绘制视图中大尺寸空洞的纹理结构信息。针对预处理后的大尺寸空洞，下面给出了一种结合上下文特征融合的GAN来填充。

2.3 结合上下文特征融合的生成对抗性网络

图3所示为提出的CFF-Net实现框图，它根据多层卷积编-解码器学习到的特征来生成空洞区域的像素，并结合上下文特征融合的注意力模型来提升空洞填充区的质量。CFF-Net基于GAN架构，共分2级。输入为预处理后的DIBR图像和掩膜图，首先经卷积层数为12的第1级生成对抗网络生成空洞区域的结构信息(如图3左列所示)，其中输出通道数为256的卷积层采用扩张卷积。第2级卷积神经网络也由12层构成，并在中间的并行拼接编码模块中加入注意力层和扩张卷积来提升合成图像质量。其中拼接操作可以在不增加计算量的前提下扩充支路的信息量，注意力层有助于生成更合理的细节信息。数据集采用多视点深度视频序列^[19]，具有相邻帧之间前景变化幅度大的特点。为了使前景周边的空洞具有更好的纹理一致性，CFF-Net中的注意力模块是将同一空洞区域的特征块的注意力分数进行了关联运算。

图 3 CFF-Net组成框图

下载: 全尺寸图片幻灯片

2.3.1 损失函数

1级和2级网络的解码部分都使用像素级的L₂损失函数

${L_2} = \sum\limits_{i = 1}^N {|{{\boldsymbol{\varPhi}} _i}({\boldsymbol{I}}) - {{\boldsymbol{\varPhi}} _i}({{\stackrel \frown{{\boldsymbol{I}}} }}){|^2}}$

(5)

其中， ${{\boldsymbol{\varPhi }}_i}$ 表示VGG-16网络模型的第 $i$ 层图像特征， ${\boldsymbol{I}}$ 和 ${{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{I}}} }}$ 分别表示真实图像和生成图像， $N$ 表示VGG-16中卷积层的数量。为了更有效地传递图像信息并减少前景溢出，在2级网络中还添加了特征感知损失^[20]

${L_{{\text{per}}}} = \sum\limits_{i = 1}^N {\frac{1}{{{H_i}{W_i}{C_i}}}} |{{\boldsymbol{\varPhi}} _i}({\boldsymbol{I}}) - {{\boldsymbol{\varPhi}} _i}({{\stackrel \frown{{\boldsymbol{I}}} }})|$

(6)

其中， ${H_i}$ , ${W_i}$ 和 ${C_i}$ 分别表示VGG-16中第 $i$ 层卷积特征的高度、宽度和通道数。因此第2级网络的总损失函数L_t=L₂+0.1L_per，其中两者的权重1和0.1通过训练测试确定。

2.3.2 掩膜图像生成

掩膜图像在网络训练中起到重要作用，它引导网络对空洞区域进行特征学习。在已有的深度学习图像处理中，掩膜主要分为居中的方形掩膜和涂抹产生的自由形状掩膜。但这类掩膜一般用在单帧图像修复且缺失区域位于前景区域。但是，绘制产生的空洞主要是由前景遮挡或左右视点的视角差异造成的(如图2所示)，其特点是在前景物体的某一侧出现或出现在整幅图像的某侧边缘。因此本文通过插值、镜像等运动自制了掩膜数据集，制作过程如图4所示。

图 4 掩膜图制作

下载: 全尺寸图片幻灯片

2.3.3 上下文特征融合注意力模块

为消除合成视点图像中部分前景信息误匹配到背景空洞区域，现采用上下文特征融合注意力模块使空洞填充区域有更好的全局结构纹理一致性。注意力机制能在掩膜图的引导下，寻找训练数据中相匹配的特征值。CFF-Net的注意力需对空洞区域的特征进行全局匹配，在最佳注意力分数的选取上考虑相邻特征的注意力分数来提高同一区域特征块的纹理一致性。图5展示了上下文特征融合注意力模型的原理图。

图 5 上下文特征融合注意力模型示意图

下载: 全尺寸图片幻灯片

首先提取空洞区域的特征块，并计算该块与特征图中非空洞区域块的余弦相似性

${\text{sim}}_{x,y,\tilde x,\tilde y}^i = \lt \frac{{{{\boldsymbol{b}}_{x,y}}}}{{||{{\boldsymbol{b}}_{x,y}}||}},\frac{{{{\boldsymbol{f}}_{\tilde x,\tilde y}}}}{{||{{\boldsymbol{f}}_{\tilde x,\tilde y}}||}} \gt$

(7)

其中，上标i表示第i轮相似性计算结果， $i \in \{ 1,2,\cdots, M{\text{\} }}$ ，下标 $x,y$ 和 $\tilde x,\tilde y$ 分别表示输入特征图中非空洞区域和空洞区域特征块的位置坐标， ${\boldsymbol{b}}$ 和 ${\boldsymbol{f}}$ 分别表示非空洞区域特征和空洞区域特征， $\lt \cdot \gt$ 和 $|| \cdot ||$ 分别表示内积和欧几里得范数。通过 ${\text{softmax}}$ 函数将所有的(M个)余弦相似性值进行归一化处理，获得注意力分数

${\text{score}}_{x,y,\tilde x,\tilde y}^i = {\text{softmax}}({\text{sim}}_{x,y,\tilde x,\tilde y}^i)$

(8)

先前的注意力机制直接选取分数最高的特征作为匹配特征，但在空洞填充中会误匹配到前景信息。为加强空洞生成后的特征连续性并减少前景信息干扰，首先将第1个特征块的最佳注意力分数设为最大注意力分数score_max，再将剩余特征块的最佳注意力分数与前1次的注意力分数进行关联运算，获得该特征块的最优注意力分数score_opt，计算公式为

$\begin{split} {\text{scor}}{{\text{e}}^i}_{{\text{cur}}} =\,& \mathop {\arg \max }\limits_i \left({\text{score}}_{x,y,\tilde x,\tilde y}^i \right)\\ & - \mathop {\arg \min }\limits_i \left({\text{score}}_{x,y,\tilde x,\tilde y}^i \right)\qquad\quad \end{split}$

(9)

${\text{score}}_{{\text{opt}}}^i = {w_1} \cdot {\text{score}}_{{\text{pre}}}^{i{{ - 1}}} + {w_2} \cdot {\text{score}}_{{\text{cur}}}^i$

(10)

其中， ${w_1}$ 和 ${w_2}$ 为权值， ${\text{score}}_{{\text{cur}}}^i$ 表示当前特征块的注意力分数， ${\text{score}}_{{\text{pre}}}^{i - 1}$ 表示当前特征块在上一轮中的注意力分数，其初始值为0，每次计算得到score_opt后更新score_pre= score_opt。最后，通过score_opt匹配源区域的特征块重建空洞区域的特征信息。下文中的消融实验展示了该模块和其他注意力模块的性能比较。

3. 实验结果与分析

为便于与先前工作对比，实验采用微软的多视点深度视频序列数据集^[19]：Ballet和Breakdance序列，掩膜图采用自制掩膜图。在实验过程中先绘制虚拟视点图像，并在生成网络中分别用作训练集和测试集，具体信息如表1所示。训练样本是裁剪为256×256分辨率的图像块。针对不同的数据集都进行了不同的网络训练，当损失大小逐渐趋于稳定时，使用该模型参数来生成虚拟视点图像的空洞区域。实验环境CPU为Intel 5115 2.40 GHz，显卡为Nvidia GeForce RTX 2080Ti。

表 1 数据集详情

名称	分辨率	总帧数	基线距离(mm)	修复帧数	训练集：测试集
Ballet	1024×768	800	380	100	9:1
Breakdance	1024×768	800	370	100	9:1

下载: 导出CSV

| 显示表格

3.1 训练细节

CFF-Net基于TensorFlow框架实现。初始学习率分别为 $\alpha {\text{ = 0}}{\text{.5}}$ , $\beta = 0.999$ 的Adam优化器；特征融合网络训练的batch=4, epoch=250；判别器中加载了VGG-16模块计算特征感知损失。通过Ballet序列的训练结果和侧重当前特征的注意力分数，设定权值 ${w_1} = 0.4$ , ${w_2} = 0.6$ 。

3.2 与不同的方法进行比较

本文将CFF-Net与近几年流行的或性能最优的虚拟视点空洞填充方法进行了比较，其中常规的空洞填充方法有：Cri^[2]、Anh^[6]、Luo^[8]和VSRS^[21-23]。同时，还将它与图像修复中经典的GAN网络模型(Df2^[16]和Gla^[22])在相同的数据集上进行了性能对比。实验中的客观质量评价指标采用峰值信噪比(Peak Signal to Noise Ratio, PSNR)和结构相似度(Structural Similarity Index Measure, SSIM)。

3.3 定量评估

表2和表3分别展示了数据集在不同方法下生成所有目标帧的PSNR和SSIM平均值。表中的视点绘制序列选取BA41, BA43, BA52, BA54, BR56和BR57，其中BA和BR分别表示Ballet和Breakdance数据集，数字表示参考视点和虚拟视点位置，如BA54表示Ballet序列，参考视点和目标视点为5和4。总体上，CFF-Net在性能指标上优于传统方法，这是因为传统填充方法是在单帧图像内以图像块匹配的方式来填补空洞，难以修复出合理的图像细节。此外，对于Df2和Gla, CFF-Net的平均性能也明显优于它们，这是因为本文提出的注意力模型会对同一区域的注意力进行关联运算，可在前景周边的空洞区域减少前景信息的渗透，进而提升了图像质量。

表 2 不同方法在PSRN上的平均值

测试序列	PSNR↑
测试序列	BA41	BA43	BA52	BA54	BR56	BR57
Cri^[2]	22.057	28.019	23.639	30.471	29.258	27.779
Anh^[6]	23.357	27.522	24.681	30.820	29.618	27.797
Luo^[8]	24.077	27.996	24.661	32.104	29.552	27.955
VSRS^[23]	23.039	27.615	24.361	29.089	29.432	28.177
Df2^[16]	22.923	29.214	24.421	32.524	29.593	28.029
Gla^[22]	23.674	28.823	25.015	32.284	29.599	28.279
本文	23.576	29.472	25.111	33.227	29.802	28.325

下载: 导出CSV

| 显示表格

表 3 不同方法在SSIM上的平均值

测试序列	SSIM↑
测试序列	BA41	BA43	BA52	BA54	BR56	BR57
Cri^[2]	0.757	0.873	0.764	0.878	0.806	0.785
Anh^[6]	0.770	0.863	0.761	0.873	0.791	0.791
Luo^[8]	0.792	0.871	0.773	0.881	0.790	0.781
VSRS^[23]	0.782	0.867	0.787	0.879	0.810	0.791
Df2^[16]	0.768	0.873	0.774	0.887	0.806	0.791
Gla^[22]	0.759	0.872	0.766	0.883	0.806	0.792
本文	0.767	0.875	0.787	0.889	0.812	0.798

下载: 导出CSV

| 显示表格

从表2和表3的具体数值来看，CFF-Net在多个序列上都取得不错的性能，如BA43的PSNR，比传统方法中的最高值高1.4 dB，这是因为CFF-Net能更有效地从数据集中学习到图像特征，比传统方法用图像块匹配来填充空洞更加有效。但在大基线条件下进行绘制时，如BA41，由于产生的空洞面积较大，本文方法与Luo相比略有不足，这是因为Luo的方法采用背景重建已填补了大量空洞。但由于生成像素的精确性不足和基于图像块匹配的方式，Luo方法难以在小基线的序列上取得优势。因此在大多数序列不同视角视点合成上，CFF-Net优于Luo的方法。

图6(a)和6(b)所示为不同方法输出的部分合成帧(BA54和BR56)的PSNR值逐帧对比结果。在小基线情况下(BA54序列)，提出的方法明显优于其他对比方法，这是因为CFF-Net可以更准确地生成空洞区域的像素值且融合上下文特征的注意力机制能有效减少前景的渗透。在BR56序列上，性能提升幅度相对小于Ballet序列，这是由于Breakdance序列的图像整体颜色偏暗淡和相邻视点之间的距离小于Ballet序列，绘制时产生的空洞面积也小于Ballet序列，因此性能提升幅度相对较少。

图 6 不同方法的逐帧性能对比结果

下载: 全尺寸图片幻灯片

3.4 定性评估

图7是本文方法和其他6种方法的主观质量比较。从图中可见，CFF-Net能在空洞区域生成更合理的纹理图像，尤其在红色方形框标注的区域。Cri和Anh用图像块匹配来修复空洞，容易出现错误的图像块；VSRS是基于图像扩散的方法，它修复的图像质量取决于空洞外侧的源像素。Luo通过重建背景和分割前景来减少前景的影响，但边缘空洞还是使用图像块匹配。本文方法通过深度卷积神经网络来重建空洞区域，较常规的空洞填充方法能在空洞区域生成合理的图像纹理。

图 7 不同方法主观质量比较

下载: 全尺寸图片幻灯片

Df2, Gla和CFF-Net都是基于深度卷积神经网络的方法，没有明显的视觉错误。但Df2和Gla在靠近有丰富的纹理结构的空洞区域会一定程度上将邻近的纹理复制到空洞区域，Gla使用双重注意力，导致在前景周边的背景空洞生成了更多的前景信息。CFF-Net通过对同一特征区域的注意力分数进行关联运算，在最佳注意力分数的选取上考虑相邻特征的注意力分数，能在空洞区域减少前景的干扰，在主观质量上产生令人舒适的效果。

3.5 消融实验

3.5.1 不同的注意力模块

CFF-Net采用上下文特征融合的注意力机制，它旨在加强同一区域特征块的纹理一致性，在注意力分数的计算上同相邻特征进行了关联运算。为了证明本文注意力模块的先进性，将Df2, Gla的注意力模型加入本文网络，并与E2F^[24]图像修复模型一起，在相同测试条件下与本文方法进行比较。

图8展示了各种网络在BA54序列第62帧的局部主观比较图。由图8可见，Df2和Gla会不同程度地在空洞区域误匹配前景信息，E2F会出现明显的伪影错误。这是因为当虚拟视点图像中的前景对象存在快速运动时，空洞填充易受到前景影响。Df2和Gla的注意力模型在特征块匹配时会选取前景作为匹配块；E2F是基于光流的特征传播网络模型，在连续多帧的空洞区域不能进行有效的特征传播。同时表4给出了各种注意力模块的性能比较结果，采用上下文特征融合的注意力模块在PSNR和SSIM指标上都优于其他注意力模型。

图 8 不同注意力模块下局部图比较

下载: 全尺寸图片幻灯片

表 4 不同注意力模块的性能比较

	Df2	Gla	E2F	本文
PSNR	33.105	32.968	31.452	33.227
SSIM	0.887	0.887	0.885	0.889

下载: 导出CSV

| 显示表格

3.5.2 不同掩膜图像

掩膜图像与图像修复或空洞填充性能密切相关。从特征学习的角度看，网络中的掩膜应符合空洞的位置特征、形状多样性和生成算法复杂度低等特点。图6(c)和6(d)所示为BA54在不同掩膜类型下的PSNR和SSIM性能比较。由图可见，在同一条件下，自制掩膜能训练出性能更优的模型。其中，使用居中的方形(矩阵型)掩膜生成的模型性能比其他掩膜都低，而自由形状掩膜^[16]在加上方形掩膜后，生成的图像质量相比仅使用自由形状掩膜有了下降。方形掩膜图虽能较好地学习以人脸为代表的数据集特征，但它和自由形状掩膜都不符合绘制产生的空洞图的位置特征，不能有效引导网络学习虚拟视点数据集的空洞特征。自制的掩膜图在位置分布上与绘制的空洞图的位置特征相类似，能更有效地学习到空洞区域的隐含特征。

4. 结束语

本文提出了一种基于深度卷积神经网络的空洞填充模型来重建虚拟视点的空洞区域。首先对合成图像进行预处理，来减少前景对空洞填充工作的影响；然后采用提出的CFF-Net生成空洞区域的像素，训练掩膜采用自制的图像进行训练。此外，针对填充空洞时易产生前景溢出的问题，给出了一种融合上下文特征的注意力模型来生成更加逼真的空洞结构纹理信息。实验结果验证了经CFF-Net填充后的虚拟视点合成图像能获得比先前方法更佳的主客观质量。结合时域信息，采用深度学习网络对合成视点图像进行前后景分割后并进行背景重建后进行空洞填充将是下一步的研究内容。

References(24)

References

[1]	DE OLIVEIRA A Q, DA SILVEIRA T L T, WALTER M, et al. A hierarchical superpixel based approach for DIBR view synthesis[J]. IEEE Transactions on Image Processing, 2021, 30: 6408–6419. doi: 10.1109/TIP.2021.3092817.
[2]	CRIMINISI A, PEREZ P, and TOYAMA K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE Transactions on Image Processing, 2004, 13(9): 1200–1212. doi: 10.1109/TIP.2004.833105.
[3]	ZHU Ce and LI Shuai. Depth image based view synthesis: New insights and perspectives on Hole generation and filling[J]. IEEE Transactions on Broadcasting, 2016, 62(1): 82–93. doi: 10.1109/TBC.2015.2475697.
[4]	CHANG Yuan, CHEN Yisong, and WANG Guoping. Range guided depth refinement and uncertainty-aware aggregation for view synthesis[C]. International Conference on Acoustics, Speech and Signal Processing, Toronto, Canada, 2021: 2290-2294. doi: 10.1109/ICASSP39728.2021.9413981.
[5]	CHENG Cong, LIU Ju, YUAN Hui, et al. A DIBR method based on inverse mapping and depth-aided image inpainting[C]. 2013 IEEE China Summit and International Conference on Signal and Information Processing, Beijing, China, 2013: 518-522. doi: 10.1109/ChinaSIP.2013.6625394.
[6]	ANH I and KIM C. A novel depth-based virtual view synthesis method for free viewpoint video[J]. IEEE Transactions on Broadcasting, 2013, 59(4): 614–626. doi: 10.1109/TBC.2013.2281658.
[7]	RAHAMAN D M M and PAUL M. Virtual view synthesis for free viewpoint video and Multiview video compression using Gaussian mixture modelling[J]. IEEE Transactions on Image Processing, 2018, 27(3): 1190–1201. doi: 10.1109/TIP.2017.2772858.
[8]	LUO Guibo, ZHU Yuesheng, WENG Zhenyu, et al. A disocclusion inpainting framework for depth-based view synthesis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(6): 1289–1302. doi: 10.1109/TPAMI.2019.2899837.
[9]	GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. Proceedings of the 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2672–2680. doi: 10.5555/2969033.2969125.
[10]	RADFORD A, METZ L, and CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]. 4th International Conference on Learning Representations, Puerto Rico, 2016: 1–16.
[11]	IIZUKA S, SIMO-SERRA E, and ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4): 107. doi: 10.1145/3072959.3073659.
[12]	LI Jingyuan, WANG Ning, ZHANG Lefei, et al. Recurrent feature reasoning for image inpainting[C]. Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 7757–7765. doi: 10.1109/CVPR42600.2020.00778.
[13]	XU Shunxin, LIU Dong, and XIONG Zhiwei. E2I: Generative inpainting from edge to image[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(4): 1308–1322. doi: 10.1109/TCSVT.2020.3001267.
[14]	SHIN Y G, SAGONG M C, YEO Y J, et al. PEPSI++: Fast and lightweight network for image inpainting[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(1): 252–265. doi: 10.1109/TNNLS.2020.2978501.
[15]	孙磊, 杨宇, 毛秀青, 等. 基于空间特征的生成对抗网络数据生成方法[J]. 电子与信息学报, 2023, 45(6): 1959–1969. doi: 10.11999/JEIT211285. SUN Lei, YANG Yu, MAO Xiuqing, et al. Data Generation based on generative adversarial network with spatial features[J]. Journal of Electronics & Information Technology, 2023, 45(6): 1959–1969. doi: 10.11999/JEIT211285.
[16]	YU Jiahui, LIN Zhe, YANG Jimei, et al. Free-form image inpainting with gated convolution[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 4470–4479. doi: 10.1109/ICCV.2019.00457.
[17]	PATHAK D, KRÄHENBÜHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2536–2544. doi: 10.1109/CVPR.
[18]	LIU Guilin, DUNDAR A, SHIH K J, et al. Partial convolution for padding, inpainting, and image synthesis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(5): 6096–6110. doi: 10.1109/TPAMI.2022.3209702.
[19]	Microsoft. MSR 3D Video dataset from official microsoft download center[EB/OL]. https://www.microsoft.com/en-us/download/details.aspx?id=52358, 2014.
[20]	JOHNSON J, ALAHI A, and LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]. 14th European Conference Computer Vision 2016, Amsterdam, Netherlands, 2016: 694–711. doi: 10.1007/978-3-319-46475-6_43.
[21]	YUAN H L and VELTKAMP R C. Free-viewpoint image based rendering with multi-layered depth maps[J]. Optics and Lasers in Engineering, 2021, 147: 106726. doi: 10.1016/j.optlaseng.2021.106726.
[22]	UDDIN S M N and JUNG Y J. Global and local attention-based free-form image inpainting[J]. Sensors, 2020, 20(11): 3204. doi: 10.3390/s20113204.
[23]	STANKIEWICZ O and WEGNER K. Depth estimation reference software and view synthesis reference software[S]. Switzerland: ISO/IEC JTC1/SC29/WG11 MPEG/M16027, 2009.
[24]	LI Zhen, LU Chengze, QIN Jianhua, et al. Towards an end-to-end framework for flow-guided video inpainting[C]. Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 17541–17550. doi: 10.1109/CVPR52688.2022.01704.

Relative Articles

Supplements(0)

Cited By

Cited by
Periodical cited type(0)
Other cited types(1)

Proportional views

Proportional views

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

Figures(8) / Tables(4)

Get Citation

PDF

XML

Article Metrics

Article views (264) PDF downloads(45)