基于边缘领域自适应的立体匹配算法

厉行; 樊养余; 郭哲; 段昱; 刘诗雅

doi:10.11999/JEIT231113

基于边缘领域自适应的立体匹配算法

doi: 10.11999/JEIT231113

厉行¹,
樊养余¹,
郭哲^1, ,,
段昱²,
刘诗雅³

1.
西北工业大学电子信息学院西安 710072
2.
西北工业大学计算机学院西安 710072
3.
虚拟现实内容制作中心北京 101318

基金项目: 国家自然科学基金(62071384)，陕西省重点研发计划(2023-YBGY-239)，江西省自然科学基金(20224BAB212009)

详细信息

作者简介:
厉行：女，博士生，研究方向为计算机视觉、模式识别、虚拟现实等

樊养余：男，博士，教授，研究方向为图像处理、虚拟现实技术、数字信号处理等

郭哲：女，博士，副教授，研究方向为图像处理、虚拟现实、计算机视觉等

段昱：男，博士生，研究方向为计算机视觉、模式识别、虚拟现实等

刘诗雅：女，硕士，硕士生导师，研究方向为虚拟现实、人工智能、5G、微电子等

通讯作者:
郭哲　guozhe@nwpu.edu.cn

中图分类号: TN911.73; TP183
计量
- 文章访问数: 450
- HTML全文浏览量: 186
- PDF下载量: 53
- 被引次数: 0
出版历程
- 收稿日期: 2023-10-12
- 修回日期: 2023-12-28
- 网络出版日期: 2024-01-02
- 刊出日期: 2024-07-29

Edge Domain Adaptation for Stereo Matching

LI Xing¹,
FAN Yangyu¹,
GUO Zhe^{1
, ,},
DUAN Yu²,
LIU Shiya³

1.
School of Electronics and Information, Northwestern Polytechnical University, Xi’an 710072, China
2.
School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China
3.
Content Production Center of Virtual Reality, Beijing 101318, China

Funds: The National Natural Science Foundation of China (62071384), The Key Research and Development Project of Shaanxi Province (2023-YBGY-239), Jiangxi Natural Science Foundations (20224BAB212009)

摘要

摘要: 风格迁移方法因其较好的域适应性，广泛应用于存在领域差异的计算机视觉领域。当前基于风格迁移的立体匹配任务存在如下挑战: (1)转换后的左右图像需满足配对的前提; (2)转换后图像的内容和空间信息要与原始图像保持一致。针对以上难点，该文提出一种基于边缘领域自适应的立体匹配方法(EDA-Stereo)。首先，构建了边缘引导的生成对抗网络(Edge-GAN)，通过空间特征转换(SFT)层融合边缘信息和合成域图像特征，引导生成器输出保留合成域图像结构特征的伪图像。其次，提出翘曲损失函数以迫使基于转换后的右图像所重建出的左图像向原始左图像进行逼近，防止转换后的左右图像对不匹配。最后，提出基于法线损失的立体匹配网络，通过表征局部深度变化来捕获更多的几何细节，有效提高了匹配精度。通过在合成数据集上训练，在真实数据集上与多种方法进行比较，结果表明本该方法能够有效缓解领域差异，在KITTI 2012和KITTI 2015数据集上的D1误差分别为3.9%和4.8%，比当前先进的域不变立体匹配网络(DSM-Net)方法分别相对降低了37%和26%。
- 立体匹配 /
- 领域自适应 /
- 边缘引导 /
- 生成对抗网络
Abstract: The style transfer method, due to its excellent domain adaptation capability, is widely used to alleviate domain gap of computer vision domain. Currently, stereo matching based on style transfer faces the following challenges: (1) The transformed left and right images need to remain matched; (2) The content and spatial information of the transformed images should remain consistent with the original images. To address these challenges, an Edge Domain Adaptation Stereo matching (EDA-Stereo) method is proposed. First, an Edge-guided Generative Adversarial Network (Edge-GAN) is constructed. By incorporating edge cues and synthetic features through the Spatial Feature Transform (SFT) layer. the Edge-GAN guides the generator to produce pseudo-images that retain the structural features of syntheitic domain images. Second, a warping loss is introduced to guarantee the left image to be reconstructed based on the transformed right image to approximate the original left image, preventing mismatches between the transformed left and right images. Finally, a normal loss based stetreo matching network is proposed to capture more geometric details by characterizing local depth variations, thereby improving matching accuracy. By training on synthetic datasets and comparing with various methods on real datasets, results show the effectiveness in mitigating domain gaps. On the KITTI 2012 and KITTI 2015 datasets, the D1 error is 3.9% and 4.8%, respectively, which is a relative reduction of 37% and 26% compared to the state-of-the-art Domain-invariant Stereo Matching Networks (DSM-Net) method.
- Stereo matching /
- Domain adaptation /
- Edge-guided /
- Generative Adversarial Network(GAN)

HTML全文

1. 引言

压缩感知(Compressed Sensing, CS)^[1,2]理论是近年来新提出的一种针对可稀疏表示信号的采样、压缩及编解码理论。其核心思想是将信号的稀疏性作为先验条件，用远低于Nyquist采样定理所要求的速率对信号进行采样，实现了信号的采样和压缩同时进行，并利用少量测量值精确或高概率地重建出原始信号。该理论打破了传统Nyquist采样定理对采样速率的要求，实现了更为简洁和高效的图像采样压缩处理。

作为CS理论的核心问题，CS重建算法一直是该领域的研究热点，传统的CS重建算法利用图像在某个变换域下的稀疏性作为先验条件完成了从少量的观测值中高概率地重建出原始图像。但对于结构复杂以及内容多变的图像信息而言，须进一步挖掘其潜在的先验信息来重建出高质量稳定的图像。目前被广泛采用的图像先验信息主要为3类：稀疏表示特性^[3-5]、局部平滑特性^[6-8]和非局部自相似特性^[9-12]。

第1类是通过构建一个具有良好稀疏表示能力的字典，其方法主要为基于固定基函数的数学方法^[3]和基于训练样本的字典学习方法^[4,5]。采用固定的基函数对信号稀疏表示时，这类稀疏域忽略了图像信号的非平稳性，通常缺乏自适应的能力。后续研究学者通过样本训练来学习字典，这类字典中的原子结构丰富，能更好地与图像的结构和内容相匹配，但在学习的过程中，往往存在耗时较长，计算复杂度高的问题。

后两类主要是考虑图像空间域的相关性。图像的局部平滑特性，即图像局部的梯度值较小或趋于零，其中具有代表性的是全变分模型(Total Variation, TV)^[6,7]，该模型能在抑制噪声的同时能够较好地保留图像的边缘信息。Buades等人^[9]进一步挖掘了图像的先验信息，利用图像的非局部自相似特性，提出了一种非局部均值(NonLocal Means, NLM)去噪模型，在有效地保护图像纹理细节的同时抑制了噪声。后续研究学者通过联合图像的局部平滑特性和非局部自相似特性在图像去噪中取得了较好的效果^[13-15]，为进一步能够在全变分框架中利用图像的非局部自相似特性，Zhang等人^[16]通过非局部加权的方法，将非局部均值模型嵌入到了TV模型中，提出了非局部全变分模型，采用加权的方式来刻画自然图像的细节和纹理。此外，Zhang等人^[17]在NLM的基础之上在CS重建算法中引入了非局部正则化约束，提出了基于非局部正则化全变分模型的图像CS重建算法。基于以上分析，一方面基于传统TV模型的图像重建算法往往会导致重建图像容易出现分块平滑现象，细节损失严重；另一方面在刻画图像的非局部自相似模型中，大多都是通过加权的方式，这不可避免的使得重建结果会出现扰动和不准确。

针对以上问题，本文提出了一种基于结构组全变分(Structural Group TV, SGTV)模型的图像CS重建算法。利用图像的非局部自相似性匹配图像块来构建结构组，建立了基于结构组的全变分模型来处理CS重建问题。通过结构组在梯度域中所展现的结构稀疏特性，能更好地刻画图像的细节和纹理。最后为了使算法鲁棒可解，本文采用了分裂Bregman迭代(Split Bregman Iteration, SBI)^[18]将算法的求解分离成多个子问题，并分别对每个子问题进行高效求解。实验结果验证了所提算法的有效性，重建图像的主观视觉效果、客观的峰值信噪比(Peak Signal to Noise Ratio, PSNR)和特征相似性(Feature SIMilarity, FSIM)^[19]均优于目前现有的基于全变分模型的图像CS重建算法。

2. 理论基础

CS的过程为：将信号 ${{x}} \in {R^N}$ 在一个大小为 $M \times N$ $(M \ll N)$ 观测矩阵 ${{H}}$ 上进行投影，得到一个长度为 $M$ 的测量值 ${{y}} \in {R^M}$ 。CS重建则是从获取的少量测量值 ${{y}}$ 中重建出原始信号 ${{x}}$ ，重建求解问题通常具有病态特性，不具有唯一解，但通过对解的空间施加一定的约束，进而可达到信号的重建精度。因此从正则化方法出发，针对图像CS的重建问题，通过引入正则化约束项来约束解的空间，其模型为

${{\hat x}} = \mathop {\arg \min }\limits_{{x}} \frac{1}{2}\left\| {{{y}} - {{Hx}}} \right\|_2^2 + \lambda F\left( {{x}} \right)$

(1)

其中，等式右边第1项为数据的保真项，保证原问题的求解在真实解的领域内依赖于观测值。第2项为正则化约束项，保证问题求解的适定性。 $\lambda$ 为正则化参数，用于调节数据保真项和正则化约束项的平衡问题。

3. 基于结构组全变分模型的图像压缩感知重建算法

3.1 图像结构组构造

利用图像的非局部自相似特性，通过匹配相似块来构建图像结构组。在本文中提出的结构组全变分(SGTV)模型中，是由图像的非局部自相似块所构成的结构组为基本单位，下面将给出构造图像结构组的具体细节。

如图1所示，首先将大小为 $\sqrt N \times \sqrt N$ 的图像 ${{x}}$ 划分为大小为 $\sqrt B \times \sqrt B$ 且相互重叠的图像块 ${{{x}}_i}$ ，其中 $i = 1,2,··· ,n$ 。然后在图像 ${{x}}$ 标记的大小为 $L \times L$ 的虚线窗口中，搜索 $c$ 个与图像块 ${{{x}}_i}$ 最为相似的图像块，按其相似程度将其排列成3维组 ${{{T}}_{{G_i}}} = \left[ {{{x}}_{{G_i} \otimes 1}}\right.$ $\left. {{{x}}_{{G_i} \otimes 2}}\; ··· \; \; {{{x}}_{{G_i} \otimes c}} \right]$ 。同时为方便后续计算处理，将3维组 ${{{T}}_{{G_i}}}$ 中每个2维图像块张成1维列向量，构成的大小为 $B \times c$ 的结构组矩阵，定义为一个为结构组 ${{{x}}_{{G_i}}}$ 。在结构组构造的过程中，充分的利用了图像的非局部自相似特性，划分的每一个重叠图像块 ${{{x}}_i}$ 均对应着一个结构组 ${{{x}}_{{G_i}}}$ ，其数学模为

图 1 图像的结构组构造

下载: 全尺寸图片幻灯片

${{{x}}_{{G_i}}} = {{{R}}_{{G_i}}}\left( {{x}} \right)$

(2)

其中， ${{{R}}_{{G_i}}}\left( \cdot \right)$ 表示为从图像 ${{x}}$ 中提取第 $i$ 个结构组 ${{{x}}_{{G_i}}}$ 的操作算子，其伴随算子为 ${{R}}_{{G_i}}^{\rm{T}}\left( \cdot \right)$ ，表示将结构组 ${{{x}}_{{G_i}}}$ 放回重建图像中相对应的位置，而图像其他的位置用0元素填充。最后对所有结构组进行平均处理，即对图像块重叠部分取像素值的平均。则重建图像可以表示为

${{x}} = \sum\limits_{i = 1}^n {{{R}}_{{{\rm{G}}_i}}^{\rm{T}}\left( {{{{x}}_{{G_i}}}} \right)} {./{\sum\limits_{i = 1}^n {{{R}}_{{G_i}}^{\rm{T}}\left( {{{{\textit{1}}}_{B \times c}}} \right)} }}$

(3)

其中， ${./\; }$ 表示两个向量之间对应元素的除法算子， ${{{\textit{1}}}_{B \times c}}$ 表示大小为 $B \times c$ ，所有元素都为1的矩阵。

3.2 图像结构组全变分模型

受传统全变分模型的思想启发，构造结构组全变分模型。对于图像 ${{x}}$ 的第 $i$ 个结构组 ${{{x}}_{{G_i}}} \in {{{R}}^{B \times c}}$ ，令其结构组的梯度表示为 $\nabla {{{x}}_{{G_i}}} \in {{{R}}^{B \times c}}$ ，则定义基于结构组的离散梯度算子为

${\left( {\nabla {{{x}}_{{G_i}}}} \right)_k} = \left\{ \begin{aligned} &{{{{x}}_{{G_i} \otimes (k + 1)}} - {{{x}}_{{G_i} \otimes k}},}\quad {k < c}\\ &{0,}\qquad\qquad\qquad\qquad\ \ {k = c} \end{aligned} \right.$

(4)

其中， ${{{x}}_{{G_i} \otimes k}}$ 表示在结构组 ${{{x}}_{{G_i}}}$ 中的第 $k$ 个位置上的相似图像块。

根据式(4)定义的离散梯度算子，则基于图像第 $i$ 个结构组结全变分模型为

${\left\| {{{{x}}_{{G_i}}}} \right\|_{{\rm{SGTV}}}} = \sum\limits_{1 \le k \le c} {\left| {{{\left( {\nabla {{{x}}_{{G_i}}}} \right)}_k}} \right|}$

(5)

若将 $\displaystyle\sum\nolimits_{1 \le k \le t c} {\left| {{{\left( {\nabla {{{x}}_{{G_i}}}} \right)}_k}} \right|}$ 改写成向量乘的形式，同时令 ${\left\| {{{D}}{{{x}}_{{G_i}}}} \right\|_1} = \displaystyle\sum\nolimits_{1 \le \le c} {\left| {{{\left( {\nabla {{{x}}_{{G_i}}}} \right)}_k}} \right|}$ ，可得

${\left\| {{{{x}}_{{G_i}}}} \right\|_{{\rm{SGTV}}}} = {\left\| {{{D}}{{{x}}_{{G_i}}}} \right\|_1}$

(6)

其中， ${{D}}$ 表示结构组离散梯度算子 $\nabla$ 的生成矩阵， ${\left( {{{D}}{{{x}}_{{G_i}}}} \right)_k} \in {{{R}}^{B \times c}}$ 表示在结构组第 $k$ 个位置上离散梯度向量。

因此，为了能够在统一的框架下刻画图像的非局部自相似性和结构组的结构稀疏特性，联合图像划分为的 $n$ 个结构组，得到全局图像的结构组全变分模型的正则化约束项数学表达式为

${\rm{SGTV}}\left( {{x}} \right) = \sum\limits_{i = 1}^n {{{\left\| {{{D}}{{{x}}_{{G_i}}}} \right\|}_1}}$

(7)

可以看出，SGTV的优点是利用图像自相似块来构建结构组，通过全变分的方式来刻画结构组在梯度域中的结构稀疏特性。同时由于在非局部的窗口区域内根据图像块的结构自适应的匹配相似块，因此SGTV模型还具有一定有自适应特性。

3.3 基于SGTV模型的图像CS算法求解

经过前面小节的分析和理论基础，提出了基于SGTV的图像CS重建算法的目标函数为

${{\hat x}} = \mathop {\arg \min }\limits_{{x}} \frac{1}{2}\left\| {{{y}} - {{Hx}}} \right\|_2^2 + \lambda {\rm{SGTV}}\left( {{x}} \right)$

(8)

其中， ${{\hat x}}$ 为重建图像， ${{y}}$ 为原始信号 ${{x}}$ 通过观测矩阵 ${{H}}$ 投影得到的观测值。为了使算法鲁棒可解，本文采用SBI算法对提出的目标函数式(8)进行求解，SBI算法具有收敛速度快，占用内存小等特性。

因此对于式(8)求解，通过引入辅助变量 ${{u}}$ 将式(8)转化为其等价的带约束形式如式(9)所示

$\left. \begin{aligned} & {{\hat x}} = \mathop {\arg \min }\limits_{{x}} \frac{1}{2}\left\| {{{y}} - {{Hu}}} \right\|_2^2 + \lambda \; {\rm{SGTV}}\left( {{x}} \right)\\ & {\rm{s}}{\rm{.t}}{\rm{.}}\; {{x}} = {{u}} \end{aligned}\right\}$

(9)

令 $f\left( {{u}} \right) = \dfrac{1}{2}\left\| {{{y}} - {{Hu}}} \right\|_2^2$ , $g\left( {{x}} \right) = \lambda \; {\rm{SGTV}}\left( {{x}} \right)$ ，在SBI算法框架下，对式(9)进行变量分离，进一步将式(8)的求解转化成了迭代求式(10)—式(12)

${{{u}}^{\left( {t + 1} \right)}} = \frac{1}{2}\left\| {{{y}} - {{Hu}}} \right\|_2^2 + \frac{\beta }{2}\left\| {{{u}} - {{{x}}^{\left( t \right)}} - {{{b}}^{\left( t \right)}}} \right\|_2^2$

(10)

${{{x}}^{\left( {t + 1} \right)}} = \lambda {\rm{SGTV}}\left( {{x}} \right) + \frac{\beta }{2}\left\| {{{{u}}^{\left( {t + 1} \right)}} - {{x}} - {{{b}}^{\left( t \right)}}} \right\|_2^2$

(11)

${{{b}}^{\left( {t + 1} \right)}} = {{{b}}^{\left( t \right)}} - \left( {{{{u}}^{\left( {t + 1} \right)}} - {{{x}}^{\left( {t + 1} \right)}}} \right) \hspace{55pt}$

(12)

可以看出，通过SBI算法框架将式(9)的优化求解问题转换成迭代求解3个子问题。在后续小节中，将详细地给出 ${{u}}$ , ${{x}}$ 子问题的高效求解过程。为了方便表达简洁，后续讨论中将省略迭代次数 $t$ 。

3.3.1 ${{u - }}$ 子问题求解

当对于给定的 ${{x}}$ ，此时式(10)表示的 ${{u - }}$ 子问题变为一个严格的凸二次函数的最小化问题

$\mathop {\min }\limits_{{u}} {Q_1}\left( {{u}} \right) = \mathop {\arg \min }\limits_{{u}} \frac{1}{2}\left\| {{{y}} - {{Hu}}} \right\|_2^2 + \frac{\beta }{2}\left\| {{{u}} - {{x}} - {{b}}} \right\|_2^2$

(13)

对于图像CS重建问题而言， ${{H}}$ 为随机投影矩阵，为了避免求解 ${{{H}}^{\rm{T}}}{{H}} + \beta {{I}}$ 矩阵的逆所带来的较高计算复杂度，因此采用最速梯度下降算法求解式(14)

${{\hat u}} = {{u}} - \eta {{d}}$

(14)

其中， ${{\hat u}} = {\left( {{{{H}}^{\rm{T}}}{{H}} + \beta {{I}}} \right)^{ - 1}}\left( {{{{H}}^{\rm{T}}}{{y}} + {{x}} + {{b}}} \right)$ , ${{I}}$ 为单位矩阵， ${{d}}$ 代表目标函数式(13)的梯度方向， $\eta$ 表示每次迭代过程选择的最优步长。因此 ${{u - }}$ 子问题通过迭代式(15)进行求解

${{\hat u}} = {{u}} - \eta \left( {{{{H}}^{\rm{T}}}{{Hu}} - {{{H}}^{\rm{T}}}{{y}} + \beta \left( {{{u}} - {{x}} - {{b}}} \right)} \right)$

(15)

其中， ${{{H}}^{\rm{T}}}{{H}}$ 和 ${{{H}}^{\rm{T}}}{{y}}$ 是提前可计算出来且每次迭代固定不变，从而使 ${{u - }}$ 子问题的求解变得更为高效。

3.3.2 ${{x - }}$ 子问题求解

对于给定 ${{u}}$ ，由于定义结构组全变分的特殊性，很难直接对式(11)进行求解，令 ${{r}} = {{u}} - {{b}}$ ，此时式(11)表示的 ${{x - }}$ 子问题可表示形式为

$\mathop {\min }\limits_{{x}} {Q_2}\left( {{x}} \right) = \mathop {\arg \min }\limits_{{x}} \frac{1}{2}\left\| {{{r}} - {{x}}} \right\|_2^2 + \frac{\lambda }{\beta }{\rm{SGTV}}\left( {{x}} \right)$

(16)

其中辅助变量 ${{r}}$ 可以看作是原图像 ${{x}}$ 带有某种噪声的近似估计图像，其残差表示为 ${{e}} = {{r}} - {{x}}$ ，并假设在每次的迭代中，残差 ${{{e}}^{\left( t \right)}}$ 中的元素均服从某种独立同分布。Zhang等人^[11]在这样假设的前提下，经过实验仿真和理论证明了该假设的一般化，得到式(17)

$\mathop {\lim }\limits_{N,{{K}}\atop \to \infty } P\left( {\left| {\frac{1}{N}\left\| {{{r}} - {{x}}} \right\|_2^2 - \frac{1}{K}\sum\limits_{i = 1}^n {\left\| {{{{r}}_{{G_i}}} - {{{x}}_{{G_i}}}} \right\|_2^2} } \right| < \varepsilon } \right) = 1$

(17)

其中， $P\left( \cdot \right)$ 表示概率，其中 $K = B \times c \times n$ 。

根据式(17)和大数定理可得，在每一次的迭代过程中，存在着接近于1的概率使得式(18)成立

$\frac{1}{N}\left\| {{{{r}}^{\left( t \right)}} - {{{x}}^{\left( t \right)}}} \right\|_2^2 = \frac{1}{K}\sum\limits_{i = 1}^n {\left\| {{{r}}_{{G_i}}^{\left( t \right)} - {{x}}_{{G_i}}^{\left( t \right)}} \right\|_2^2}$

(18)

将式(18)代入式(16)，令 $\mu = \dfrac{{\lambda K}}{{\beta N}}$ ，同时联合式(7)得到

$\begin{split} & \mathop {\rm arg\min }\limits_{{x}} \; \; \; \frac{1}{2}\left\| {{{r}} - {{x}}} \right\|_2^2 + \frac{\lambda }{\beta }{\rm{SGTV}}\left( {{x}} \right) \\ &\quad = \mathop {\rm arg\min }\limits_{{x}} \frac{1}{2}\sum\limits_{i = 1}^n \!{\left( {\left\| {{{{r}}_{{G_i}}} \!-\! {{{x}}_{{G_i}}}} \right\|_2^2 \!+\! \mu {{\left\| {{{D}}{{{x}}_{{G_i}}}} \right\|}_1}} \right)} \end{split}$

(19)

因此求解式(16)转化为求解 $n$ 个结构组的最小化全变分问题。每一个结构组 ${{{x}}_{{G_i}}}$ 重建问题表述为

${{{\hat x}}_{{G_i}}} = \mathop {\arg \min }\limits_{{{{x}}_{{G_i}}}} \frac{1}{2}\left\| {{{{r}}_{{G_i}}} - {{{x}}_{{G_i}}}} \right\|_2^2 + \mu {\left\| {{{D}}{{{x}}_{{G_i}}}} \right\|_1}$

(20)

由于式(20)中 ${\left\| {{{D}}{{{x}}_{{G_i}}}} \right\|_1}$ 模型的非平滑特性，文献[7]通过其原始-对偶问题求解，于是通过考虑结构组的对偶问题来求解式(20)。

定义结构组的离散散度算子为 ${\bf{div}} = - {\nabla ^ * }$ , ( ${\nabla ^ * }$ 为式(4)中算子 $\nabla$ 的伴随算子)

${\left( {{\bf{div}}{\kern 1pt} {{p}}} \right)_k} = \left\{ {\begin{array}{*{20}{l}} {{{{x}}_{{G_i} \otimes k}} - {{{x}}_{{G_i}}}_{ \otimes (k - 1)},}&{1 < k < c}\\ {{{{x}}_{{G_i} \otimes k}},}&{{\kern 1pt} k = 1}\\ { - {{{x}}_{{G_i} \otimes (k - 1)}},}&{k = c} \end{array}} \right.$

(21)

令对偶步长为 $\tau > 0$ , ${{{p}}^0} = 0$ ，通过以下半隐式不动点迭代算法求解。

${{{p}}^{m + 1}} = \frac{{{{{p}}^m} + \tau \left( {\nabla \left( {{\bf{div}}\; \; {{{p}}^m} - \mu {{{r}}_{{G_i}}}} \right)} \right)}}{{1 + \tau \left| {\left( {\nabla \left( {{\bf{div}}\; \; {{{p}}^m} - \mu {{{r}}_{{G_i}}}} \right)} \right)} \right|}}$

(22)

${{{\hat x}}_{{G_i}}} = {{{r}}_{{G_i}}} - \frac{1}{\mu }{\bf{div}}\; {{{p}}^{m + 1}}$

(23)

当对偶步长 $0 < \tau \le {1/{{{\left\| {{\bf{div}}} \right\|}^2}}}$ 时，保证了迭代算法的收敛性。本文采用迭代次数 $m$ 为固定的FISTA^[20]算法对式(22)进行迭代更新，联合式(23)直到 $n$ 个结构组问题求解完成，最后通过式(3)得到 ${{x - }}$ 子问题的解。

3.4 算法的整体描述

到此，在SBI算法框架下，对于每一个子问题都采取了高效的求解方式进而使得整个算法变得高效。基于前面的分析，给出了基于结构组全变分模型的图像CS重建算法(SGTV)的整体描述，如表1所示。

表 1 基于SGTV模型的图像CS重建算法(SGTV)的整体描述

　输入：随机投影测量矩阵

${{H}}$ 和CS测量值

${{y}}$

　初始化：

$t = 0$ ,

${{{u}}^{(0)}} = 0$ ,

${{{b}}^{(0)}} = 0$ ,

$B$ ,

$c$ ,

$\beta$ ,

$\mu$ ；

　　(1) 开始迭代：

$t = 1,2, ··· ,N$

　　(2) 　根据式(10)计算得到

${{{u}}^{(t + 1)}}$ ；

　　(3) 　令

${{{r}}^{(t + 1)}} = {{{u}}^{(t + 1)}} - {{{b}}^{(t)}}$ ;

${{\mu = \left( {\lambda K} \right)}/{\left( {\beta N} \right)}}$ ；

　　(4) 　根据块匹配法找到

$n$ 个结构组；

　　(5) 　对于每一个结构组

${{{r}}_{{G_i}}}$ ,

$i = 1,2, ··· ,n$

　　(6) 　　　利用FISTA算法迭代更新得到

${{{p}}^{m + 1}}$ ；

　　(7) 　　　根据式(3)算法迭代更新得到

${{{\hat x}}_{{G_i}}}$ ；

　　(8) end for

　　(9) 根据式(11)计算得到

${{{x}}^{(t + 1)}}$ ；

　　(10) 根据式(12)更新

${{{b}}^{(t + 1)}}$ ；

　　(11) 达到最大迭代次数，算法结束

　　(12) 输出重建图像

${{u}} = {{{u}}^{(t + 1)}}$

下载: 导出CSV

| 显示表格

4. 仿真实验及结果分析

本节将通过实验来验证所提SGTV模型用于图像CS重建的性能，如图2所示，给出了6幅标准测试图像。为了降低计算复杂度，实验采取了目前主流的做法^[11]，将图像划分为大小为 $32 \times 32$ 的互不重叠图像块，对每一个图像块通过高斯随机矩阵 ${{H}}$ 按照相同的采样率进行采样，获得整个图像的测量值。

图 2 6幅标准测试图像

下载: 全尺寸图片幻灯片

4.1 参数设置

在实验进行图像CS重建的过程中，算法参数设置为：在结构组中，每个样本图像块大小 $\sqrt B \times \sqrt B$ 为 $8 \times 8$ ，自相似块的个数 $c$ 为4个；两个相邻样本图像块之间的重叠间距为4；结构组的搜索窗口的大小设置为 $20 \times 20$ ; $\beta$ 取值为0.0025， $\lambda$ 取值为0.00025，总的迭代次数设为100次。

4.2 算法性能评估

为了评估算法性能的优劣，分别采用了客观质量评价标准的PSNR(dB)和当前主流的主观质量评价标准的FSIM来对算法重建图像的质量进行评估。所选择性能比较算法为：全变分算法(TV)^[6]、非局部全变分算法(Non-Local Total Variation algorithm, NLTV)^[16]、非局部正则化全变分算法(Total Variation-NonLocal Rank algorithm, TVNLR)^[17]以及非局部梯度稀疏算法(Non-local Gradient SpaRse algorithm, NGSR)^[10]。如表2所示，给出了不同图像CS重建算法在采样率为0.2～0.4下的PSNR和FSIM结果比较，可以看出，本文提出的SGTV算法在相同的采样率下，都取得了最高的PSNR和FSIM，效果提升较为明显，特别是对纹理和细节较为丰富的Barbara图像提升性能最为显著，在所有采样率下至少提高了3 dB。从重建效果的平均上看，提出的该算法比传统基于梯度域的TV算法在PSNR值上高出3.6 dB；比NLTV算法要高2.4 dB，比TVNLR算法高2.3 dB，比NGSR算法提高了1.4 dB。由此，充分证明了所提算法的有效性。

表 2 不同采样率下各图像CS重建算法重建图像的PSNR(dB)/FISM值比较

采样率	算法	House	Barbara	Leaves	Monarch	Parrots	Vessels	Avg.
0.2	TV	31.54/0.9072	23.79/0.8190	22.66/0.8553	26.77/0.8862	26.51/0.9018	22.09/0.8356	25.56/0.8675
	NLTV	32.59/0.9199	25.01/0.8584	24.40/0.9012	27.07/0.8913	26.52/0.9247	23.54/0.8798	26.51/0.8959
	TVNLR	33.03/0.9230	25.68/0.8901	23.51/0.8834	27.42/0.9073	26.97/0.9225	23.34/0.8718	26.66/0.8997
	NGSR	33.60/0.9350	27.470.9175	24.79/0.9036	27.83/0.9090	27.43/0.9217	24.10/0.8874	27.54/0.9124
	SGTV	34.96/0.9519	29.27/0.9240	26.71/0.9249	28.59/0.9232	29.19/0.9386	25.16/0.9024	28.98/0.9275
0.3	TV	33.76/0.9382	25.16/0.8723	25.79/0.9090	29.94/0.9286	28.68/0.9309	25.27/0.8992	28.10/0.9130
	NLTV	34.96/0.9422	27.47/0.9157	27.57/0.9354	29.86/0.9278	29.02/0.9469	27.15/0.9352	29.31/0.9339
	TVNLR	35.23/0.9497	27.92/0.9153	26.67/0.9249	30.01/0.9374	28.96/0.9436	27.08/0.9321	29.31/0.9338
	NGSR	36.36/0.9679	29.54/0.9435	27.71/0.9359	30.92/0.9419	30.22/0.9526	27.26/0.9358	30.34/0.9463
	SGTV	37.08/0.9690	32.20/0.9558	29.91/0.9543	31.55/0.9508	31.17/0.9549	28.36/0.9446	31.73/0.9549
0.4	TV	35.41/0.9564	26.59/0.9095	28.76/0.9419	32.69/0.9520	30.46/0.9513	27.95/0.9441	30.31/0.9452
	NLTV	36.97/0.9603	30.01/0.9520	31.04/0.9682	32.66/0.9532	30.15/0.9619	29.70/0.9568	31.76/0.9587
	TVNLR	37.19/0.9664	30.27/0.9246	30.14/0.9546	32.95/0.9600	30.40/0.9576	29.35/0.9570	31.72/0.9534
	NGSR	37.25/0.9695	31.10/0.9602	31.08/0.9637	33.28/0.9590	31.37/0.9619	30.01/0.9609	32.35/0.9625
	SGTV	38.80/0.9775	34.33/0.9710	32.54/0.9702	34.20/0.9664	33.16/0.9666	31.25/0.9668	34.05/0.9698

下载: 导出CSV

| 显示表格

在图3和图4中分别给出了Barbara, Monarch在采样率为0.3时，不同CS重建算法得到的主观视觉效果对比。其中TV算法重建结果最差，图像的边缘、细节和纹理都保持得较差。基于TV模型的重建图像算法将图像的细节和纹理过度平滑，细节和纹理损失严重，呈现出优化效果。NLTV算法和TVNLR算法利用图像的非局部自相似性分别通过加权方式和引入新的正则项在一定程度上缓解了图像的过平滑问题，图像的细节和纹理得到了一定的保护，但效果改善不是很好。而NGSR算法利用图像的非局部自相似特性用像素自适应分布来刻画图像梯度域的稀疏性，能较好地恢复图像的信息，但是局部细节信息仍然恢复较差。由本文提出的SGTV算法重建图像的主观视觉效果最好，这是由于图像非局部自相似块构建的结构组在梯度域中展现出的稀疏性有利于图像CS重建。SGTV算法在图3中的PSNR增益达到2.66 dB，图4的PSNR增益达到1.26 dB，不仅在平滑区域没有混叠信号，放大图像细节可以看出对细节和纹理丰富的图像重建效果明显，具有更加尖锐的边缘和更丰富的细节，性能提升显著。

图 3 Barbara仿真结果对比图

下载: 全尺寸图片幻灯片

图 4 Monarch仿真结果对比图

下载: 全尺寸图片幻灯片

4.3 相似块数目的影响

相似块数目是指在结构组的构建过程中，所允许最大相似图像块的个数。由于本文定义相似块的度量不是采用图像结构和内容的绝对相似，而是采用欧氏距离来度量图像块之间的相似性。为了验证相似图像块对所提算法性能的影响，若相似块数目越多，将会影响结构组的结构稀疏性，从而影响了CS重建图像的质量；若自相似图像块的数目过少，则不能较好的利用图像非局部自相似这一先验特性。因此在实验中将将相似块 $c$ 进行了不同取值实验。结果如图5所示，随着相似块数目的增加，算法的性能是有所下降的，平均在相似块数目为4时性能最佳。因此，本文将相似块数目 $c$ 的取值为4。

图 5 相似块数目

$c$ 取值不同时算法的性能比较

下载: 全尺寸图片幻灯片

4.4 重叠块间距的影响

块重叠间距是指将图像划分为互相重叠图像块的过程中，两个相邻块之间的间隔距离。为了验证重叠块的间距对所提算法的影响，给出了House, Barbara和Leaves测试图像在采样率为0.3时，不同重叠块间距下的性能比较，如图6所示。结果表明，当间距越小时，CS重建图像的质量越好，但相差不是很大，因此从计算的复杂度和重建性能折中考虑，本文将重叠块间距设置4。

图 6 采样率=0.3时，重叠块间距对算法重建性能的影响

下载: 全尺寸图片幻灯片

4.5 算法的稳定性

对于所提算法模型很难提供一种全局收敛的理论证明，在本小节，将通过一种实验性方法来证明所提算法模型的稳定性。下面给出了House, Barbara, Leaves和Vessels测试图像分别在采样率为0.3和0.4下的PSNR迭代曲线图，如图7所示。结果表明，随着迭代次数的增加，图像的PSNR曲线均是逐渐上升，最终都趋于平坦和稳定，这也充分的证明了所提出算法模型具有一个很好的收敛稳定性。

图 7 算法稳定性分析

下载: 全尺寸图片幻灯片

4.6 算法的时间复杂度分析

实验仿真硬件平台为主频为3.30 GHz的酷睿i5-4590，运行内存4 G的计算机，软件平台64位的Windows 10的操作系统和为Matlab R2016a仿真软件。表3给出了在采样为0.3时，对于不同分辨率图像下各CS重建算法达到收敛时的运行时间。可以看出在相同分辨率的图像下，本文所提算法重建图像质量最好但实际运行时间较长，同时各算法对于不同采样率的处理速度也存在着差异。

表 3 采样率为0.3时，各算法的实际运行处理时间(s)

	TV	NLTV	TVNLR	NGSR	SGTV
House (256×256)	5.27	75.26	99.57	110.52	132.85
Vessels(96×96)	1.29	36.75	49.09	63.12	73.96
平均	3.28	56.01	74.33	86.82	103.01

下载: 导出CSV

| 显示表格

5. 结束语

传统的全变分模型考虑图像先验信息单一，使得重建图像质量较差且算法的适应能力不强。针对以上考虑，本文提出了一种基于结构组全变分模型的图像CS重建算法SGTV。首先，利用图像的非局部自相似性通过匹配相似块构建结构组，然后利用结构组在梯度域中较好的稀疏特性，构建了结构组全变分模型并将其作为正则化约束项。最后为了使算法鲁棒可解，利用了分裂Bregman迭代将算法分离成多个子问题，并分别对其进行高效求解。实验结果验证了所提算法的有效性，重建效果更佳，能更好地保护图像细节。

图 1 在Scene Flow合成数据集上训练的PSMNet^[10]和本文方法在真实数据集上的结果对比

下载: 全尺寸图片幻灯片

图 2 EDA-Stereo网络架构图

下载: 全尺寸图片幻灯片

图 3 Canny,HED和Sobel边缘检测方法的可视化结果对比

下载: 全尺寸图片幻灯片

图 4 真实图像、原始合成图像和转换后的合成图像的示例

下载: 全尺寸图片幻灯片

图 5 不同领域数据集的颜色相关图

下载: 全尺寸图片幻灯片

图 6 EDA-Stereo在SF,MB和KT12上预测的视差图和法线图示例

下载: 全尺寸图片幻灯片

表 1 Edge-GAN中损失函数的消融实验

损失函数	KT12			KT15
损失函数	EPE	D1	时间(s)	EPE	D1	时间(s)
w/o ${\mathcal{L}}_{\mathrm{c}\mathrm{y}\mathrm{c}\mathrm{l}\mathrm{e}}$	1.68	9.87	0.14	2.05	10.30	0.14
w/o ${\mathcal{L}}_{\mathrm{i}\mathrm{d}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{t}\mathrm{y}}$	2.73	26.95	0.21	2.99	31.22	0.21
w/o ${\mathcal{L}}_{\mathrm{w}\mathrm{a}\mathrm{r}\mathrm{p}\mathrm{i}\mathrm{n}\mathrm{g}}$	1.24	5.62	0.19	1.52	6.85	0.19
所有损失	1.20	5.37	0.23	1.47	6.58	0.23

下载: 导出CSV

表 3 Edge-GAN使用不同边缘图的消融实验

网络结构	KT12			KT15
网络结构	EPE	D1	时间(s)	EPE	D1	时间(s)
w/o 边缘	1.24	6.02	0.15	1.54	6.99	0.15
w/ Canny 边缘	1.23	5.51	0.24	1.51	6.70	0.24
w/ HED边缘	1.22	5.47	0.30	1.50	6.65	0.30
w/ Sobel 边缘	1.20	5.37	0.23	1.47	6.58	0.23

下载: 导出CSV

表 4 EDA-Stereo法线损失函数的消融实验

模型	训练集	KT12			KT15
模型	训练集	EPE	D1	时间(s)	EPE	D1	时间(s)
EDA-Stereo w/o ${\mathcal{L}}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}}$	SF	1.20	5.37	0.83	1.47	6.58	0.83
EDA-Stereo w/ ${\mathcal{L}}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}}$	SF	1.18	4.95	0.86	1.47	5.13	0.86
EDA-Stereo w/o ${\mathcal{L}}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}}$	SY	0.97	4.72	0.83	1.34	5.55	0.83
EDA-Stereo w/ ${\mathcal{L}}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}}$	SY	1.00	4.52	0.86	1.32	4.91	0.86

下载: 导出CSV

表 2 Edge-GAN中SFT层的消融实验

网络结构	KT12			KT15
网络结构	EPE	D1	时间(s)	EPE	D1	时间(s)
边缘作为输入	1.23	5.63	0.17	1.52	6.78	0.17
边缘串接特征图	1.22	5.52	0.18	1.51	6.72	0.18
SFT层融合边缘	1.20	5.37	0.23	1.47	6.58	0.23

下载: 导出CSV

表 5 Edge-GAN对不同立体匹配算法的影响对比结果

模型	SF		TSF		SY		TSY
模型	EPE	D1	EPE	D1	EPE	D1	EPE	D1
在KT12上测试
PSMNet ^[10]	1.99	15.02	1.66	11.4	1.42	6.8	1.36	6.37
GwcNet ^[21]	1.70	12.60	1.40	8.90	1.45	7.65	1.32	7.18
NLCA-Net ^[22]	1.23	6.61	1.20	6.35	1.14	4.67	1.06	4.42
Abc-Net ^[13]	1.28	7.23	1.20	5.37	1.03	4.96	0.97	4.72
在KT15上测试
PSMNet ^[10]	2.35	17.33	2.12	14.5	1.75	7.23	1.73	7.04
GwcNet ^[21]	2.36	12.20	1.76	9.90	1.74	6.89	1.59	6.80
NLCA-Net ^[22]	1.70	8.20	1.59	8.16	1.40	5.83	1.32	5.45
Abc-Net ^[13]	1.63	7.88	1.47	6.58	1.34	5.79	1.34	5.55

下载: 导出CSV

表 6 在SF数据集的定量测试结果

模型	GC-Net^[4]	iResNet^[25]	PSMNet^[10]	GANet-deep^[26]	AANet^[27]	AutoDispNet	LEAStereo^[24]	Normal-Stereo	EDA-Stereo
EPE	1.84	2.45	1.09	0.78	0.87	1.51	0.78	0.65	0.73
Bad1.0	15.6	9.28	12.1	8.7	9.3	37	7.82	6.7	7.6

下载: 导出CSV

表 7 与其他先进方法的D1误差比较结果

模型	领域适应/领域泛化	训练数据	KT12 (D1-noc)	KT15 (D1-noc)	MB(half) (Bad 2.0-noc)	MB(quarter) (Bad 2.0-noc)	ETH3D (Bad 1.0-noc)
CostFilter^[28]	–	–	21.7	18.9	40.5	17.6	31.1
PatchMatch^[29]	–	–	20.1	17.2	38.6	16.1	24.1
SGM^[1]	–	–	7.1	7.6	25.2	10.7	12.9
HD3-Stereo^[30]	–	SF	23.6	26.5	37.9	20.3	54.2
EdgeStereo^[31]	–	SF	7.8	10.1	11.54	–	–
GANet-deep^[26]	–	SF	10.1	11.7	20.3	11.2	14.1
DSM-Net^[32]	$\surd$	SF	6.2	6.5	13.8	8.1	–
MS-GCNet ^[33]	$\surd$	SF	5.5	6.2	18.52	–	8.84
DANet^[34]	$\surd$	SF	5.4	6.1	–	–	–
StereoGan^[35]	$\surd$	DR&KT15	25.6	–	–	–	–
StereoGan^[35]	$\surd$	SY&KT15	11.6	–	–	–	–
ITSA-CFNet^[36]	$\surd$	SF	4.2	4.7	10.4	8.5	5.1
FC-DSMNet^[37]	$\surd$	SF	5.5	6.2	12.0	7.8	6.0
本文算法EDA-Stereo	$\surd$	SF	4.1	4.8	14.4	10.4	8.4
本文算法EDA-Stereo	$\surd$	SY	3.9	4.8	17.4	10.0	10.4

下载: 导出CSV

参考文献(37)

[1]	HIRSCHMULLER H. Stereo processing by semiglobal matching and mutual information[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(2): 328–341. doi: 10.1109/TPAMI.2007.1166.
[2]	边继龙, 门朝光, 李香. 基于小基高比的快速立体匹配方法[J]. 电子与信息学报, 2012, 34(3): 517–522. doi: 10.3724/SP.J.1146.2011.00826. BIAN Jilong, MEN Chaoguang, and LI Xiang. A fast stereo matching method based on small baseline[J]. Journal of Electronics & Information Technology, 2012, 34(3): 517–522. doi: 10.3724/SP.J.1146.2011.00826.
[3]	MAYER N, ILG E, HÄUSSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 4040–4048. doi: 10.1109/CVPR.2016.438.
[4]	KENDALL A, MARTIROSYAN H, DASGUPTA S, et al. End-to-end learning of geometry and context for deep stereo regression[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 66–75. doi: 10.1109/ICCV.2017.17.
[5]	LI Zhaoshuo, LIU Xingtong, DRENKOW N, et al. Revisiting stereo depth estimation from a sequence-to-sequence perspective with transformers[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 6177–6186. doi: 10.1109/ICCV48922.2021.00614.
[6]	LIPSON L, TEED Z, and DENG Jia. RAFT-Stereo: Multilevel recurrent field transforms for stereo matching[C]. 2021 International Conference on 3D Vision, London, UK, 2021: 218–227. doi: 10.1109/3DV53792.2021.00032.
[7]	LI Jiankun, WANG Peisen, XIONG Pengfei, et al. Practical stereo matching via cascaded recurrent network with adaptive correlation[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 16242–16251. doi: 10.1109/CVPR52688.2022.01578.
[8]	RAO Zhibo, XIONG Bangshu, HE Mingyi, et al. Masked representation learning for domain generalized stereo matching[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 5435–5444. doi: 10.1109/CVPR52729.2023.00526.
[9]	ROS G, SELLART L, MATERZYNSKA J, et al. The SYNTHIA dataset: A large collection of synthetic images for semantic segmentation of urban scenes[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 3234–3243. doi: 10.1109/CVPR.2016.352.
[10]	CHANG Jiaren and CHEN Yongsheng. Pyramid stereo matching network[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 5410–5418. doi: 10.1109/CVPR.2018.00567.
[11]	LIU Shaolei, YIN Siqi, QU Linhao, et al. Reducing domain gap in frequency and spatial domain for cross-modality domain adaptation on medical image segmentation[C]. The 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 1719–1727. doi: 10.1609/aaai.v37i2.25260.
[12]	刘彦呈, 董张伟, 朱鹏莅, 等. 基于特征解耦的无监督水下图像增强[J]. 电子与信息学报, 2022, 44(10): 3389–3398. doi: 10.11999/JEIT211517. LIU Yancheng, DONG Zhangwei, ZHU Pengli, et al. Unsupervised underwater image enhancement based on feature disentanglement[J]. Journal of Electronics & Information Technology, 2022, 44(10): 3389–3398. doi: 10.11999/JEIT211517.
[13]	LI Xing, FAN Yangyu, LV Guoyun, et al. Area-based correlation and non-local attention network for stereo matching[J]. The Visual Computer, 2022, 38(11): 3881–3895. doi: 10.1007/s00371-021-02228-w.
[14]	WANG Xintao, YU Ke, DONG Chao, et al. Recovering realistic texture in image super-resolution by deep spatial feature transform[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 606–615. doi: 10.1109/CVPR.2018.00070.
[15]	ZHU Junyan, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2242–2251. doi: 10.1109/ICCV.2017.244.
[16]	GEIGER A, LENZ P, and URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 3354–3361. doi: 10.1109/CVPR.2012.6248074.
[17]	MENZE M and GEIGER A. Object scene flow for autonomous vehicles[C]. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 3061–3070. doi: 10.1109/CVPR.2015.7298925.
[18]	SCHARSTEIN D, HIRSCHMÜLLER H, KITAJIMA Y, et al. High-resolution stereo datasets with subpixel-accurate ground truth[C]. The 36th DAGM German Conference on Pattern Recognition, Münster, Germany, 2014: 31–42. doi: 10.1007/978-3-319-11752-2_3.
[19]	SCHÖPS T, SCHÖNBERGER J L, GALLIANI S, et al. A multi-view stereo benchmark with high-resolution images and multi-camera videos[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2538–2547. doi: 10.1109/CVPR.2017.272.
[20]	XIE Saining and TU Zhuowen. Holistically-nested edge detection[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1395–1403. doi: 10.1109/ICCV.2015.164.
[21]	GUO Xiaoyang, YANG Kai, YANG Wukui, et al. Group-wise correlation stereo network[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 3268–3277. doi: 10.1109/CVPR.2019.00339.
[22]	RAO Zhibo, HE Mingyi, DAI Yuchao, et al. NLCA-Net: A non-local context attention network for stereo matching[J]. APSIPA Transactions on Signal and Information Processing, 2020, 9(1): e18. doi: 10.1017/ATSIP.2020.16.
[23]	PASS G, ZABIH R, and MILLER J. Comparing images using color coherence vectors[C]. The Fourth ACM International Conference on Multimedia, New York, USA, 1997: 65–73. doi: 10.1145/244130.244148.
[24]	CHENG Xuelian, ZHONG Yiran, HARANDI M, et al. Hierarchical neural architecture search for deep stereo matching[C]. The 34th International Conference on Neural Information Processing Systems, Vancouver, Canada, 2020: 1858. doi: 10.5555/3495724.3497582.
[25]	LIANG Zhengfa, FENG Yiliu, GUO Yulan, et al. Learning for disparity estimation through feature constancy[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 2811–2820. doi: 10.1109/CVPR.2018.00297.
[26]	ZHANG Feihu, PRISACARIU V, YANG Ruigang, et al. GA-Net: Guided aggregation net for end-to-end stereo matching[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 185–194. doi: 10.1109/CVPR.2019.00027.
[27]	XU Haofei and ZHANG Juyong. AANet: Adaptive aggregation network for efficient stereo matching[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 1956–1965. doi: 10.1109/CVPR42600.2020.00203.
[28]	HOSNI A, RHEMANN C, BLEYER M, et al. Fast cost-volume filtering for visual correspondence and beyond[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 504–511. doi: 10.1109/TPAMI.2012.156.
[29]	BLEYER M, RHEMANN C, and ROTHER C. PatchMatch stereo-stereo matching with slanted support windows[C]. British Machine Vision Conference 2011, Dundee, UK, 2011: 1–11. doi: 10.5244/C.25.14.
[30]	YIN Zhichao, DARRELL T, and YU F. Hierarchical discrete distribution decomposition for match density estimation[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA: 2019: 6037–6046. doi: 10.1109/CVPR.2019.00620.
[31]	SONG Xiao, ZHAO Xu, FANG Liangji, et al. EdgeStereo: An effective multi-task learning network for stereo matching and edge detection[J]. International Journal of Computer Vision, 2020, 128(4): 910–930. doi: 10.1007/s11263-019-01287-w.
[32]	ZHANG Feihu, QI Xiaojuan, YANG Ruigang, et al. Domain-invariant stereo matching networks[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 420–439. doi: 10.1007/978-3-030-58536-5_25.
[33]	CAI Changjiang, POGGI M, MATTOCCIA S, et al. Matching-space stereo networks for cross-domain generalization[C]. 2020 International Conference on 3D Vision, Fukuoka, Japan, 2020: 364–373. doi: 10.1109/3DV50981.2020.00046.
[34]	LING Zhi, YANG Kai, LI Jinlong, et al. Domain-adaptive modules for stereo matching network[J]. Neurocomputing, 2021, 461: 217–227. doi: 10.1016/j.neucom.2021.06.004.
[35]	LIU Rui, YANG Chengxi, SUN Wenxiu, et al. StereoGAN: Bridging synthetic-to-real domain gap by joint optimization of domain translation and stereo matching[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 12754–12763. doi: 10.1109/CVPR42600.2020.01277.
[36]	CHUAH Weiqin, TENNAKOON R, HOSEINNEZHAD R, et al. ITSA: An information-theoretic approach to automatic shortcut avoidance and domain generalization in stereo matching networks[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 13012–13022. doi: 10.1109/CVPR52688.2022.01268.
[37]	ZHANG Jiawei, WANH Xiang, BAI Xiao, et al. Revisiting domain generalized stereo matching networks from a feature consistency perspective[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 12991–13001. doi: 10.1109/CVPR52688.2022.01266.

施引文献

资源附件(0)

访问统计

图(6) / 表(7)

计量

文章访问数: 450
HTML全文浏览量: 186
PDF下载量: 53
被引次数: 0

1. 引言
2. 理论基础
3. 基于结构组全变分模型的图像压缩感知重建算法
3.1 图像结构组构造
3.2 图像结构组全变分模型
3.3 基于SGTV模型的图像CS算法求解
3.4 算法的整体描述
4. 仿真实验及结果分析
4.1 参数设置
4.2 算法性能评估
4.3 相似块数目的影响
4.4 重叠块间距的影响
4.5 算法的稳定性
4.6 算法的时间复杂度分析
5. 结束语

1. 引言
2. 理论基础
3. 基于结构组全变分模型的图像压缩感知重建算法
3.1 图像结构组构造
3.2 图像结构组全变分模型
3.3 基于SGTV模型的图像CS算法求解
3.4 算法的整体描述
4. 仿真实验及结果分析
4.1 参数设置
4.2 算法性能评估
4.3 相似块数目的影响
4.4 重叠块间距的影响
4.5 算法的稳定性
4.6 算法的时间复杂度分析
5. 结束语

参考文献(37)

施引文献

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于边缘领域自适应的立体匹配算法

doi: 10.11999/JEIT231113

通讯作者:
郭哲　guozhe@nwpu.edu.cn

计量

Edge Domain Adaptation for Stereo Matching

1. 引言

2. 理论基础

3. 基于结构组全变分模型的图像压缩感知重建算法

3.1 图像结构组构造

3.2 图像结构组全变分模型

3.3 基于SGTV模型的图像CS算法求解

3.3.1 ${{u - }}$ 子问题求解

3.3.2 ${{x - }}$ 子问题求解

3.4 算法的整体描述

4. 仿真实验及结果分析

4.1 参数设置

4.2 算法性能评估

4.3 相似块数目的影响

4.4 重叠块间距的影响

4.5 算法的稳定性

4.6 算法的时间复杂度分析

5. 结束语

计量

目录

1. 引言

2. 理论基础

3. 基于结构组全变分模型的图像压缩感知重建算法

3.1 图像结构组构造

3.2 图像结构组全变分模型

3.3 基于SGTV模型的图像CS算法求解

3.4 算法的整体描述

4. 仿真实验及结果分析

4.1 参数设置

4.2 算法性能评估

4.3 相似块数目的影响

4.4 重叠块间距的影响

4.5 算法的稳定性

4.6 算法的时间复杂度分析

5. 结束语

留言板

基于边缘领域自适应的立体匹配算法

doi: 10.11999/JEIT231113

通讯作者: 郭哲 guozhe@nwpu.edu.cn

计量

出版历程

Edge Domain Adaptation for Stereo Matching

1. 引言

2. 理论基础

3. 基于结构组全变分模型的图像压缩感知重建算法

3.1 图像结构组构造

3.2 图像结构组全变分模型

3.3 基于SGTV模型的图像CS算法求解

3.3.1 u−{{u - }}子问题求解

3.3.2 x−{{x - }}子问题求解

3.4 算法的整体描述

4. 仿真实验及结果分析

4.1 参数设置

4.2 算法性能评估

4.3 相似块数目的影响

4.4 重叠块间距的影响

4.5 算法的稳定性

4.6 算法的时间复杂度分析

5. 结束语

计量

出版历程

目录

1. 引言

2. 理论基础

3. 基于结构组全变分模型的图像压缩感知重建算法

3.1 图像结构组构造

3.2 图像结构组全变分模型

3.3 基于SGTV模型的图像CS算法求解

3.4 算法的整体描述

4. 仿真实验及结果分析

4.1 参数设置

4.2 算法性能评估

4.3 相似块数目的影响

4.4 重叠块间距的影响

4.5 算法的稳定性

4.6 算法的时间复杂度分析

5. 结束语

通讯作者:
郭哲　guozhe@nwpu.edu.cn

3.3.1 ${{u - }}$ 子问题求解

3.3.2 ${{x - }}$ 子问题求解