基于强化学习的立体全景视频自适应流

兰诚栋; 饶迎节; 宋彩霞; 陈建

doi:10.11999/JEIT200908

基于强化学习的立体全景视频自适应流

doi: 10.11999/JEIT200908

兰诚栋^{1, 2},
饶迎节^{1, 2},
宋彩霞^{1, 2},
陈建^1, ,

1.
福州大学物理与信息工程学院福州 350108
2.
福建省媒体信息智能处理与无线传输重点实验室福州 350108

基金项目: 国家自然科学基金(62001117)，福建省自然科学基金(2017J01757)

详细信息

作者简介:
兰诚栋：男，1981年生，副教授，研究方向为视频编码与处理、人工智能、多媒体网络传输

饶迎节：男，1994年生，硕士生，研究方向为多媒体网络传输、全景视频编解码、机器学习

宋彩霞：女，1996年生，硕士生，研究方向为图像重建、全景视频编解码、深度学习

陈建：女，1981年生，副教授，研究方向为视频编码与处理

通讯作者:
陈建　chenjian-fzu@163.com

中图分类号: TN919
计量
- 文章访问数: 874
- HTML全文浏览量: 450
- PDF下载量: 98
- 被引次数: 8
出版历程
- 收稿日期: 2020-10-23
- 修回日期: 2022-01-05
- 录用日期: 2022-01-14
- 网络出版日期: 2022-02-02
- 刊出日期: 2022-04-18

Adaptive Streaming of Stereoscopic Panoramic Video Based on Reinforcement Learning

LAN Chengdong^{1, 2},
RAO Yingjie^{1, 2},
SONG Caixia^{1, 2},
CHEN Jian^{1
, ,}

1.
College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China
2.
Fujian Provincial Key Laboratory of Media Information Intelligent Processing and Wireless Transmission, Fuzhou 350108, China

Funds: The National Natural Science Foundation of China (62001117), Fujian Province Natural Science Foundation (2017J01757)

摘要

摘要: 针对当前立体全景视频传输缺少有效的流自适应方法，且传统全景视频流自适应策略传输双目立体全景视频使得传输数据加倍，所需带宽巨大的问题，该文提出一种基于多智能体强化学习的立体全景视频非对称传输自适应流方法，以实时应对网络带宽波动。首先，根据人眼对视频显著性区域的偏爱，左右视点中每个瓦片(tile)对立体视频的感知质量的贡献度不同，提出一个基于tiles的左右视点观看概率预测方法。其次，设计了一种基于策略-评价(Actor-Critic)的多智能体强化学习框架，对左右视点进行联合码率控制。最后，根据模型结构和双目抑制原理，设计合理的奖励函数。实验结果表明，与传统流自适应传输策略相比，该文所提方法更加适用于基于tiles的立体全景视频传输，实现在有限带宽下提高用户的体验质量(QoE)，为立体全景视频联合码率控制提供了一种全新的方法和思路。
- 立体全景视频传输 /
- 多智能体强化学习 /
- 视点预测 /
- 联合码率控制
Abstract: Currently, an effective stream adaptation method for stereo panoramic video transmission is missing. However, the traditional panoramic video adaptive streaming strategy for transmitting binocular stereo panoramic video suffers from the problem of doubling the transmission data and requiring huge bandwidth. A multi-agent reinforcement learning based stereo panoramic video asymmetric transmission adaptive streaming method is proposed in this paper to cope with the limited bandwidth and fluctuation of network bandwidth in real time. First, due to the human eye's preference for the saliency regions of video, each tile in the left and right viewpoints of stereoscopic video contributes differently to the perceptual quality, and a tiles-based method for predicting the watching probability of left and right viewpoint is proposed. Second, a multi-agent reinforcement learning framework based on policy-value (Actor-Critic) is designed for joint rate control of left and right viewpoints. Finally, a reasonable reward function is designed based on the model structure and the principle of binocular suppression. The experimental results show that the proposed method is more suitable for tiles-based stereo panoramic video transmission than the traditional self-adaptive stream transmission strategy. A novel approach is proposed for stereo panoramic video joint rate control and user Quality of Experience (QoE) improvement under limited bandwidth.
- Stereo panoramic video transmission /
- Multi-agent reinforcement learning /
- Viewpoint prediction /
- Joint rate control

HTML全文

1. 引言

随着经济全球化的不断深入，我国海上船舶运输与港口物流也随之飞速发展，船舶与海岸之间，船舶与船舶之间的数据业务交流的需求日益增多，海上通信问题也随之引发越来越深入的关注。在海上无线通信系统中，由于海面漫反射、大气损耗等等原因，海上通信会发生频率选择性衰落^[1]。这种衰落会直接影响接收端接收信号的效果，对海上无线通信带来了严峻的挑战。因此，准确的信道估计成为了此类通信系统的一个基本问题。近年来，大量的实际信道测量证明，由于无线宽带信号的传输，信道抽头呈现出稀疏分布^[2,3]。文献[4]提出，在水声通信中，信道在给定的传输带宽下，脉冲响应往往是呈现稀疏性。因此，可以充分利用压缩感知(Compressed Sensing, CS)^[5]技术，并结合信道的稀疏性进行信道估计。文献[6]和文献[7]提出了采用压缩采样匹配追踪(Compressed Sampling Matching Pursuit, CSMP)算法的稀疏信道估计算法，通过改进贪婪算法进行反复迭代求出最优估计值。文献[8]为了降低信道估计的计算复杂度，提出了基于光滑范数(Smooth Norm, SN)的稀疏信道估计算法。文献[9]提出了正交匹配追踪(Orthogonal Matching Pursuit, OMP)算法，并将其应用于正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)系统中的稀疏信道估计。文献[10]是基于稀疏度自适应匹配追踪(Sparsity Adaptive Matching Pursui, SAMP)算法进行稀疏信道估计，重点研究了导频分配方案。近些年，贝叶斯算法^[11]被越来越多地应用在信道估计上。为了减小信道模型的不确定性因素，文献[12]采用贝叶斯压缩感知(Bayesian Compressive Sensing, BCS)算法，通过结合贝叶斯模型对稀疏信道进行压缩重构。而在文献[13]中提出了基于贝叶斯学习的快速时变系统信道估计。文献[14]中，贝叶斯学习被引用至MIMO-OFDM系统进行稀疏信道估计。

在文献[15]的基础上，本文提出了一种基于奇异值分解优化观测矩阵的快速贝叶斯匹配追踪(Fast Bayesian Matching Pursuit based on singular-value-decomposition for Optimizing observation matrix, FBMPO)稀疏信道估计优化算法。本算法与传统算法相比，拥有相对较低的复杂度和较高的性能。本文其他部分结构安排如下：第2节介绍了海上稀疏OFDM通信系统相关模型，第3节介绍FBMPO算法，第4节与第5节则是仿真结果与对论文的总结。

2. 海上稀疏信道模型

在海上无线通信系统中，系统的实际带宽往往是大于系统的相干带宽，信道呈现频率选择性衰落，并且信道具有稀疏性。一个时变无线信道的脉冲响应可如式(1)所示

${{h}} = \mathop \sum \limits_{i = 0}^{L - 1} {h_i}{\rm{\delta}} \left( {\tau - {\tau _i}} \right)$

(1)

其中，L表示信道的多径数，h_i和τ_i表示在t时刻的第i条路径的信道复增益和时延。因此长度为L的离散信道可以表示成： ${{h}} = {\left[ {{h_0},{h_1}, ··· ,{h_{L - 1}}} \right]^{\rm{T}}}$ 。在OFDM系统中，假设经过采样的时变无线信道长度为N，系统在经过调制之后，插入导频符号并进行离散傅里叶反变换，且系统拥有M个导频子载波。为了避免海上传播的码间干扰(Inter-Symbol Interference, ISI)^[16,17]，系统增添零保护间隔即循环前缀(Cyclic Prefix, CP)并且使循环前缀长度大于最大时延τ_max。然后再通过信道传输后，去除循环前缀并进行离散傅里叶变换，最后经过解调传输信号到接收端。其中信道估计则是在接收端接收的信息中提取导频部分，选择合适的算法对信道数据信息进行还原。文献[18]中提出了压缩感知理论应用在信道估计时的数学模型，导频辅助信道估计可以建模为

${{y}} = {{\phi h}} + {{z}}$

(2)

其中，z是均值为0，方差为σ²的高斯白噪声， $\phi$ 为信道的观测矩阵。同时引入一个新的与h同维数的独立分布参数向量 ${{s}} = {\left[ {{s_0},{s_1},··· ,{s_{L - 1}}} \right]^{\rm{T}}}$ 来体现h的稀疏性，即s_i=1时信道矩阵h在i的位置是非0元素。假设s_i=1的概率为 ${p_{1,i}}$ ，那么 $P\left[ {{s_i} = 0} \right]$ 的概率则表示为 $1 - {p_{1,i}}$ 。因此h的0信道抽头和非0信道抽头的概率函数可以表示为

$P\left[ {{s_i} = 1} \right] = {p_{1,i}} \to {{{h}}_i} \ne 0 \hspace{15pt}$

(3)

$P\left[ {{s_i} = 0} \right] = 1 - {p_{1,i}} \to {{{h}}_i} = 0$

(4)

为了确保信号的稀疏性，使 ${p_{1,i}} < < 1$ 。同时，本文定义 ${p_1} = \displaystyle\sum \nolimits_{i = 0}^{L - 1} {p_{1,i}}$ ，而在海上通信中，h信道呈现较少的非0抽头。信道的稀疏程度取决于概率p₁, p₁越大，信道稀疏程度越低。在已知参数向量s的分布的情况下，信号h的概率分布满足式(5)

${{h}}|{{s}}\sim {\rm{CN}}\left( {0,{{{R}}_{{{ss}}}}} \right)$

(5)

其中，R_ss被定义为 ${{s}} = {\left[ {{s_0},{s_1}, ··· ,{s_{L - 1}}} \right]^{\rm{T}}}$ 的协方差矩阵，而 ${{{R}}_{{{ss}}}} = {\rm E}\left( {{{s}}{{{s}}^{\rm{T}}}} \right)$ 本身是一个对角矩阵，其对角线元素为 $\sigma _{{s_i}}^2$ 。因此可得 ${h_i}|\left\{ {{s_i} = 1} \right\}\sim {\rm{CN}}\left( {0,\sigma _1^2} \right)$ 。同时，根据贝叶斯准则，可以推断出参数向量s、信道向量h，和接收信号向量y之间的关系为

$p\left( {{{y}},{{h}}{\rm{|}}{{s}}} \right) = \frac{{p\left( {{{y}},{{h}},{{s}}} \right)}}{{p\left( {{s}} \right)}} = p\left( {{{y}}{\rm{|}}{{h}},{{s}}} \right)p({{h}}|{{s}})$

(6)

所以在已知h的情况下，就可以完全确定参数向量s，则有 $p\left( {{{y}}{\rm{|}}{{s}},{{h}}} \right) = p\left( {{{y}}{\rm{|}}{{h}},{{s}}} \right) = p({{y}}|{{h}})$ ，因此式(6)可以表达为

$p\left( {{{y}},{{h}}{\rm{|}}{{s}}} \right) = p\left( {{{y}}{\rm{|}}{{h}}} \right)p({{h}}|{{s}})$

(7)

根据式(5)和式(6)所提供的模型，可以得到

$\left[ {\begin{array}{*{20}{c}} {{y}}\\ {{h}} \end{array}} \right]|{{s}} = \left[ {\begin{array}{*{20}{c}} {{{y}}|{{s}}}\\ {{{h}}|{{s}}} \end{array}} \right]\sim {\rm{CN}}\left( {0,\left[ {\begin{array}{*{20}{c}} {{{\varphi }}\left( {{s}} \right){{\phi}} {{{R}}_{{{ss}}}}}\\ {{{{R}}_{{{ss}}}}{{{\phi}} ^{\rm{T}}}{{{R}}_{{{ss}}}}} \end{array}} \right]} \right)$

(8)

其中， ${{\varphi}} \left( {{s}} \right)$ 是由输入信号矩阵h、协方差矩阵R_ss和噪声方差参数σ²I_M组合而成，可以表示成为式(9)

${{\varphi}} \left( {{s}} \right) = {{\phi}} {{{R}}_{{{ss}}}}{{{\phi}} ^{\rm{T}}} + {\sigma ^2}{I_M}$

(9)

同时在海上通信系统中，通常会受到大气吸收电波，海面反射等因素的影响，通信功率往往存在传播损耗，这里考虑自由损耗、海面反射损耗、大气损耗3个因素。在海上通信传播模型当中，自由空间的传播损耗一般为

${L_{\rm{p}}} = 32.45 + 20\lg \left( f \right) + 20{\rm{lg}}\left( d \right)$

(10)

其中，f为传输工作频率，而d则表示收发端的间隔距离。海面反射损耗可以通过式(11)表示

${L_{\rm{f}}} = 10{\rm{lg}}\frac{{{{\left( {\dfrac{{4{\rm{\pi }}d}}{\lambda }} \right)}^2}}}{{1 + D_0^2 - 2{D_0}\cos \left( {\dfrac{{4{\rm{\pi }}{t_1}{t_2}}}{{d\lambda }}} \right)}}$

(11)

其中，D₀表示为地球等效反射系数，而t₁, t₂则表示两段基站的高度。最后，在大气中电波的传输主要会受到氧气和水蒸气的吸收影响。所以大气吸收的损耗L_a可以计算为

${L_{\rm{a}}} = \left( {{\gamma _0} + {{\rm{\gamma }}_w}} \right)d \hspace{130pt}$

(12)

$\begin{split} {\gamma _0} =\;& \left[ {0.00719 + \frac{{6.09}}{{{f^2} + 0.227}} + \frac{{4.81}}{{{{\left( {f - 57} \right)}^2} + 1.5}}} \right]\hspace{13pt} \\ & \times {f^2} \times {10^{ - 5}}\\[-10pt] \end{split}$

(13)

${{\rm{\gamma }}_w} = \left[ {6.73 + \frac{{300}}{{{{\left( {f - 22.3} \right)}^2} + 7.3}}} \right] \times {f^2}\rho \times {10^{ - 9}}$

(14)

因此结合上述3个条件，如式(15)，在海面通信时考虑了自由空间传播损耗，海面反射和大气吸收所带来的损耗，式中G_t和G_r分别表示接受与发射天下的增益，而L则表示3种损耗。

$L = {L_{\rm{p}}} + {L_{\rm{f}}} + {L_{\rm{a}}} + {G_{\rm{t}}} + {G_{\rm{r}}}$

(15)

相应得到的海面通信传播损耗模型如图1所示，可以看到，当两端天线距离增加时，传输损耗也相应地增大。

图 1 海上通信损耗模型

下载: 全尺寸图片幻灯片

3. FBMPO稀疏信道估计

快速贝叶斯匹配追踪(Fast Bayesian Matching Pursuit, FBMP)算法是一种结合了联合基选择和稀疏参数估计的稀疏学习算法，通过将稀疏信号分为活跃与不活跃的两部分，再通过迭代匹配追踪的方式获取高后验概率的搜索基集合，最后组成最优集合。本文所提FBMPO使用快速贝叶斯匹配追踪算法，并且通过优化观测矩阵以提高算法的精度进行稀疏信道估计。

3.1 优化观测矩阵

在贝叶斯快速匹配追踪算法中，使用高斯随机矩阵作为观测矩阵，优化效果欠佳，文献[19]提出在压缩感知中，优化观测矩阵能使算法效率提高。本节将在信号重构之前先对观测矩阵进行优化，将信号估计与改进观测矩阵相结合，通过提高观测矩阵的有限等距性质(Restricted Isometry Property, RIP)^[20]从而提高稀疏信道估计的精确度。本节所提优化算法为奇异值分解优化，能够使得观测矩阵相对原矩阵有更好的RIP性质的同时还能提高计算精度。

首先生成测量矩阵 ${{\phi}} \in {R^{M \times N}}$ ，然后对测量矩阵进行奇异值分解 ${{\phi}} = {{UW}}{V^{\rm T}}$ ，其中

${{{W}}} = \left[ {\begin{array}{*{20}{c}} {{{{W}}_1}}&0\\ 0&0 \end{array}} \right]$

(16)

其中，U为m×m阶酉矩阵，W是半正定m×n阶对角矩阵，而V^T，即V的共轭转置，是n×n阶酉矩阵。 ${{{W}}_1} = {\rm{diag}}\left( {{\delta _1},{\delta _2}, ··· ,{\delta _\tau }} \right)$ ，其中( ${\delta _1} \ge {\delta _2} \ge ···$ ${\delta _\tau } > 0$ )。随即求出对角矩阵W₁对角元素的均值ae₁，再找出所有大于等于ae₁的奇异值，并且统计出总数j。然后构造一个M×N的全为1的矩阵H，令矩阵H的前j列乘以加权系数k，得到新的矩阵H₁。将得到的H₁与观测矩阵点乘，得到优化的观测矩阵ϕ₁。

最后将得到优化的观测矩阵再次进行奇异值分解 ${{{\phi}} _1} = {{{U}}_1}{{{W}}_2}{{{V}}_1}^{\rm{T}}$ ， ${{{W}}_2} = \left[ {\begin{array}{*{20}{c}}{{{{W}}_3}}&0\\0&0\end{array}} \right]$ ，其中 ${{{W}}_3} = {\rm{diag}}\left( {{\delta _1}',{\delta _2}', ··· ,{\delta _\tau }'} \right)$ ，并令 ${\delta _1}' = {\delta _2}' =··· =$ ${\delta _\tau }' = 1$ ，得到新的矩阵 $\ {{{W}}_2}'$ 。

生成新的观测矩阵 ${{{\phi}} _2} = {{{U}}_1}{{{W}}_2}'{{{V}}_1}^{\rm{T}}$ ，将更新过后的观测矩阵代入式(9)进行下一节中信道估计计算。

3.2 基于快速贝叶斯匹配追踪稀疏信道估计

快速贝叶斯匹配追踪是一种结合了先验模型选择和近似最小均方误差的参数向量进行信道冲击响应的估计算法，FBMP算法通过对参数向量s中活跃参数与不活跃参数的配置，匹配高后验概率的基原子集合，然后得到最优基。因此首先要引入贝叶斯准则计算参数向量的后验概率分布。根据已知的贝叶斯准则，可以给出离散参数向量s的后验概率公式

$p\left( {{{s}}{\rm{|}}{{y}}} \right) = \frac{{p\left( {{{y}}{\rm{|}}{{s}}} \right)p\left( {{s}} \right)}}{{{W_{s' \in G}}p\left( {{{y}}{\rm{|}}{{s}}'} \right)p\left( {{{s}}'} \right)}}$

(17)

根据式(17)的后验概率模型，可以将计算 $p({{s}}|{{y}})$ 转化为计算 $p\left( {{{y}}{\rm{|}}{{s}}} \right)p\left( {{s}} \right)$ 的问题。在式(17)中，G表示搜索基原子集合，且 $G \in {\left\{ {0,1} \right\}^N}$ 。但是由于集合G过大导致计算过程非常复杂，对遍历整个集合G去计算 $p({{y}}|{{s}})$ 或者 $p\left( {{{y}}{\rm{|}}{{s}}} \right)p\left( {{s}} \right)$ 变得不切实际。因此，本文引入一个相对较小的G^*使得计算s的后验概率相较上者更为简单。为了得到搜索集合G^*，对它的概率密度函数(Probability Density Function, PDF)通过对数域转换并定义 $\mu \left( {{s}} \right)$ 为s的测度基，可以表示为

$\begin{split} \mu \left( {{{s}},{{y}}} \right) =\;& \ln p\left( {{{y}}{\rm{|}}{{s}}} \right)p\left( {{s}} \right) = \ln \left( {p{\rm{|}}{{s}}} \right) + {\left| {\left| {{s}} \right|} \right|_0}{\rm{ln}}{p_1} \\ &+ (N - {\left| {\left| {{s}} \right|} \right|_0}{\rm{ln}}\left( {1 - {p_1}} \right)\\ = \;& - \frac{L}{2}{\rm{ln}}2{\rm{\pi }} - \frac{1}{2}{\rm{lndet}}\left( {{{\varphi}} \left( {{s}} \right)} \right) - \frac{1}{2}{{{y}}^{\rm{T}}}{{\varphi}} {\left( {{s}} \right)^{ - 1}}{{y}} \\ &+ {\left| {\left| {\bf{s}} \right|} \right|_0}{\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}} + L{\rm{ln}}\left( {1 - {p_1}} \right)\\[-17pt] \end{split}$

(18)

根据式(17)所示，估计信道抽头的位置函数与接收信号、信道长度、参数向量s、和非0抽头p₁的概率相关，并且因为 $\mu \left( {{{s}},{{y}}} \right)$ 与 $p\left( {{{s}}{\rm{|}}{{y}}} \right)$ 是对数关系，所以 $\mu \left( {{{s}},{{y}}} \right)$ 即可看作是估计参数向量s的有效途径。传统的贝叶斯匹配追踪算法(Bayesian Matching Pursuit, BMP)步骤是：首先初始化参数向量s，即以s=0开始迭代，每激活s向量中的一个元素，产生L个不同的s向量，并且将这些s向量代入式(18)中，从而计算出L个不同的μ，随后选择其中前K个最大的测度基，并找出其所各自对应的K个s向量构成集合G⁽¹⁾。随即进行下一次迭代，对G⁽¹⁾中每个s向量剩余的0元素随机选择一个用1激活，并通过计算测度基选择前K个最大值，组成G⁽²⁾。以此类推，计算出最优搜索基集合G^R(R为设定的自适应终止参数)。但是上述算法计算复杂度较高，本文摒弃了原先的测度基更新从而引入测度基增量对它进行实时更新，即可以加快计算过程。

测度基的增量函数为 $\varDelta \left( {{s_i}} \right) = \mu \left( {s_i^*} \right) - \mu \left( {{s_i}} \right)$ 。其中 $s_i^*$ 表示该向量中除了第i个元素其他的元素都与s相同，即表示为 $s_i^* = 1,{s_i} = 0$ 。同时根据式(18)和 $\varphi \left( 0 \right) = {\sigma ^2}{I_L}$ ，计算当s=0为全0向量的时候，即

$\mu \left( 0 \right) = - \frac{L}{2}{\rm{ln}}2{\rm{\pi }} - \frac{N}{2}{\rm{ln}}{\sigma ^2} - \frac{1}{{2\sigma _i^2}}\left| {\left| {{y}} \right|} \right|_2^2 + N{\rm{ln}}\left( {1 - {p_1}} \right)$

(19)

同时也可得到

${{\varphi}} \left( {{s_i}} \right) = {{\varphi}} \left( {{s}} \right) + {\sigma _1}^2{{{\phi}} _i}{{{\phi}} _i}^{\rm{T}}$

(20)

将式(20)进行转置变化，根据转置计算准则，则有

$\begin{align} {{\varphi}} {\left( {{s_i}} \right)^{ - 1}} = {{\varphi}} {\left( {{s}} \right)^{ - 1}} - {{\varphi}} {\left( {{s}} \right)^{ - 1}}{{{\phi}} _i}{({{\phi}} _i^{\rm{T}}{{\varphi }}{\left( {{s}} \right)^{ - 1}}{{{\phi}} _i} + \sigma _1^{ - 2})^{ - 1}}\\ \end{align}$

(21)

本文定义

$\begin{split} {{{b}}_i} =\;& {{\varphi}} {\left( {{s}} \right)^{ - 1}}{{{\phi}} _i} = \frac{1}{{{\sigma ^2}}}{{{\phi}} _i} - \sigma _1^2\mathop \sum \limits_{i = 1}^p {{{\beta}} _i}{{{b}}_i}{{{b}}_i}^{\rm{T}}{{\rm{\phi}} _i},\\ {{{\beta}} _i} =\;& {\left( {1 + {\sigma _1}^2{{\phi}} _i^{\rm{T}}{{{b}}_i}} \right)^{ - 1}},\;\;{{{c}}_i} = {{{b}}_i}^{\rm{T}}{{{\phi}} _i} \end{split}$

(22)

因此进一步，式(22)可以写成

${{\varphi}} {\left( {{s_i}} \right)^{ - 1}} = {{\varphi}} {\left( {{s}} \right)^{ - 1}} - {\sigma _1}^2{{{\beta }}_i}{{{b}}_i}{{{b}}_i}^{\rm{T}}$

(23)

通过以上式子的表述，可以对式(18)进行整体化简。

根据式(23)，可以化简式(18)中等号右边第3项为

$\begin{split} {{{y}}^{\rm{T}}}{{\varphi}} {\left( {{s_i}} \right)^{ - 1}}{{y}} \;&= {{{y}}^{\rm{T}}}\left( {{{\varphi}} {{\left( {{s}} \right)}^{ - 1}} - {{{\beta}} _i}{{{b}}_i}{{{b}}_i}^{\rm{T}}} \right){{y}} \\ &= {{{y}}^{\rm{T}}}{{\varphi}} {\left( {{s}} \right)^{ - 1}}{{y}} - {{{\beta}} _i}{\left( {{{{y}}^{\rm{T}}}{{{b}}_i}} \right)^2} \end{split}$

(24)

根据式(23)，可以化简式(18)中等号右边第2项为

${\rm{lndet}}\left( {{{\varphi}} \left( {{s}} \right)} \right) = {\rm{lndet}}\left( {{{\varphi}} \left( {{s}} \right)} \right) - {\rm{ln}}\left( {\frac{{{{{\beta}} _i}}}{{{\sigma _1}^2}}} \right)$

(25)

根据式(23)，可以化简式(18)中等号右边第1项为

${\left| {\left| {\bf{s}} \right|} \right|_0}{\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}} = {\left| {\left| {\bf{s}} \right|} \right|_0}{\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}} + {\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}}$

(26)

因此将式(24)、式(25)和式(26)代入式(18)可以得到

$\begin{split} \mu \left( {{s_i}} \right) =\;& - \frac{M}{2}{\rm{ln}}2\pi - \frac{1}{2}\left( {{\rm{lndet}}\left( {{{\varphi}} \left( {{s}} \right)} \right) - \ln \left( {\frac{{{{{\beta}} _i}}}{{{\sigma _1}^2}}} \right)} \right) \\ &- \frac{1}{2}\left( {{{{y}}^{\rm{T}}}{{\varphi}} {{\left( {{s}} \right)}^{ - 1}}{{y}} - {{{\beta}} _i}{{\left| {{{{y}}^{\rm{H}}}{{{b}}_i}} \right|}^2}} \right) \\ &+ {\left| {\left| {\bf{s}} \right|} \right|_0}{\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}} + {\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}} + N{\rm{ln}}\left( {1 - {p_1}} \right) \\ =\;& \mu \left( {{s}} \right) + \left( {{s}} \right)\\[-10pt] \end{split}$

(27)

因此 $\varDelta \left( {{s}} \right)$ 可以得到

$\varDelta \left( {{{{s}}_i}} \right) = \frac{1}{2}\ln \left( {\frac{{{{{\beta}} _i}}}{{{\sigma _1}^2}}} \right) + \frac{1}{2}{{{\beta}} _i}{\left| {{{{y}}^{\rm{T}}}{{{b}}_i}} \right|^2} + {\rm{ln}}\frac{{{p_1}}}{{1 - {p_1}}}$

(28)

在上述公式中， $\varDelta \left( {{s_i}} \right)$ 则表示s在第n个位置上改变以后的测度基增益函数，通过上述算法计算搜索得到优基集合G^R。最后通过计算最小均方误差(Minimum Mean Square Error, MMSE)进行估计，即

${\tilde h_{{\rm{MMSE}}}} = \mathop \sum \limits_{s \in {G^R}} p\left( {{{s}}{\rm{|}}{{y}}} \right)E\left\{ {{\rm{\mu }}\left( {{s}} \right)} \right\}$

(29)

FBMPO算法的伪代码表述如表1所示。

表 1 FBMPO算法的伪代码

FBMPO算法
输入：参数向量s, 观测矩阵 ${{\varphi } }_i$ ，迭代阈值K, R and L；
输出： ${\tilde h_{ {\rm{MMSE} } } }$ ;
(1) Initialize ${\mu _{0,1}}$ by式(20)
(2) for i ← 1 to L:
(3) 　　 ${{{b}}_i} \leftarrow {{{\varphi}} ^{ - 1}}{{{\phi}} _i};\;{{{\beta }}_i} \leftarrow {\left( {1 + {\sigma _1}^2{{\phi}} _i^{\rm{T}}{{{b}}_i}} \right)^{ - 1}}$ ;
(4) 　　 ${\mu _{1,i} }^* \leftarrow {\mu _{0,1} } + \dfrac{1}{2}\lg \left( {\frac{ { { {{\beta} } _i} } }{ { {\sigma _1}^2} } } \right) + \dfrac{1}{2}{ {{\beta} } _i}{\left\| { { {{y} }^{\rm{T} } }{ {{b} }_i} } \right\|^2}$ 　　　　　　　 $+ {\rm{lg} }\dfrac{ { {p_1} } }{ {1 - {p_1} } }$ ;
(5) end for
(6) for q ← 1 to K:
(7) 　　 ${\mu _{1,q}} \leftarrow {\mu _{1,i}}^$ ; ${\rm{}}{b_{1,q}}^{\left( 1 \right)} \leftarrow {\mu _{1,i}}^$ ; ${\rm{}}{c_{1,q}}^{\left( 1 \right)} \leftarrow {c_{1,i}}^$ ; 　　　　　　 ${\beta _{1,q}}^{\left( 1 \right)} \leftarrow {\beta _{1,i}}^$ ;
(8) end for
(9) ${{{\phi}}_i} \leftarrow {{{U}}_1} {{W}_2} {{{V}}_1}^{\rm T}$ ; ${{{\phi}} _i}' \leftarrow {{{U}}_1}{{{W}}_2}'{{{V}}_1}^{\rm{T}}$ ;
(10) for l ← 1 to R:
(11) 　　 ${{{\beta}} _i} \leftarrow {\left( {1 + {\sigma _1}^2{{{\phi}} _i}{{'}^{\rm{T}}}{{{b}}_i}} \right)^{ - 1}}$ ;
(12) 　　 ${{{\mu}} _i} \leftarrow {\mu ^{\left( {l - 1} \right)}} + \dfrac{1}{2}{\rm{lg}}{{{\beta}} _i} + \dfrac{1}{2}{{{\beta}} _i}{\left( {{{{s}}^{\rm{T}}}c_i^{\left( l \right)}} \right)^2}$ 　　　　　　 $+ {\rm{lg}}\frac{{{p_1}}}{{1 - {p_1}}}$ ;
(13) 　　 $i_*^{\left( l \right)} \leftarrow {\rm{argma}}{{\rm{x}}_i}{\mu _i}$ ;
(14)　　 ${G^{\left( l \right)}} \leftarrow {G^{\left( {l - 1} \right)}} \cup ^{\{i_{}^{(l)}\}}$ ; 　　　　　　 $c_i^{\left( {l + 1} \right)} \leftarrow c_i^{\left( l \right)} - {{i}}_{i_^{\left( l \right)}}^{\left( l \right)}{{{\beta }}_{i_^{\left( l \right)}}}{{i}}_{i_^{\left( l \right)}}^{{{\left( l \right)}^{\rm{T}}}}{{{\phi}} _i}$ ;
(15) end for
(16) 计算 ${\tilde h_{ {\rm{MMSE} } } }$ by式(30)

下载: 导出CSV

| 显示表格

4. 仿真实验

本节通过有针对性的模拟实验，对所提算法的有效性进行验证。将观测矩阵奇异值分解优化的基于快速贝叶斯匹配追踪的算法(FBMPO)与正交匹配追踪(OMP)和贝叶斯压缩感知(BCS)算法分别在算法消耗时间、均方误差、信噪比3个方面进行比较。设置信道带宽为10 MHz，同时根据压缩感知理论，采样频率远低于奈奎斯特采样频率时，稀疏信号可以完全被精准地恢复，选取采样频率为10 MHz。仿真设置的信道h长度为L=64，而主要的信道非0抽头系数呈复高斯随机分布，并且在信道h中它们的位置服从伯努利分布，且遵循 ${\rm E}\left\{ {\left| {\left| h \right|} \right|_2^2 = 1} \right\}$ ，信道估计的接收信噪比(SNR)定义为 $10{\rm{lg}}\left( {\dfrac{1}{{\sigma _i^2}}} \right)$ 。结合实际稀疏信道常见的稀疏分布，本文通过p₁=0.04和p₁=0.01两种不同稀疏情况进行仿真比较。具体仿真参数设置如表2。

表 2 系统仿真参数设置

参数仿真	参数值
信道抽头数系统信道带宽	6410 MHz
采样频率循环前缀长度	10 MHz16
调制方式	BPSK
非零抽头概率 p₁	{0.04,0.01}
FFT/IFFT点数	1024
训练序列长度	{32,48,64}

下载: 导出CSV

| 显示表格

本文首先使用平均均方误差(Average Mean Square Error, AMSE)作为信道估计的性能标准，平均均方误差的计算公式为

${\rm AMSE}\left\{ {\tilde { h}} \right\} = {\rm E}\left| {\left| {{{h}} - \tilde {{h}}} \right|} \right|_2^2$

其中，h与 $\tilde {{h}}$ 则表示实际信道向量与信道估计向量。在图2—图4中，比较了FBMPO算法与OMP和BCS算法，可以发现贝叶斯快速匹配追踪算法比其他两个算法在均方误差指标方面，优化效果更好。同时本文比较了当导频序列为32, 48, 64时信道估计的效果。结果表明，在海上稀疏信道的背景下，当选取较长的训练序列的时候，信道估计的效果会越来越好，获得较低的均方误差。同时，从图5不难发现，本文更改了p₁的值，它的取值会对搜索集G^R的形成带来有一定的影响，当p₁为0.01，信道估计的效果在均方误差上是优于p₁为0.04的。

图 2 N为32时，p₁为0.04时，3种算法的AMSE对比

下载: 全尺寸图片幻灯片

图 4 N为64时，p₁为0.04时，3种算法的AMSE对比

下载: 全尺寸图片幻灯片

图 5 N为32时，p₁为0.01时，3种算法的AMSE对比

下载: 全尺寸图片幻灯片

图 3 N为48时，p₁为0.04时，3种算法的AMSE对比

下载: 全尺寸图片幻灯片

图6—图8中描述了误码率分别在训练序列长度为32, 48, 64的情况下随着信噪比变化的曲线图，可以看出，在海上稀疏信道传输的背景下，本文所提FBMPO算法与OMP算法效果相比将远远优于BCS信道估计。且FBMPO在误码率优化方面一直保持着优于OMP算法的效果。通过图6和图9对比，当导频序列长度一定时，稀疏度从0.04降低至0.01时，FBMPO拥有更好的信道估计效果。

图 6 N为32时，p₁为0.04时，3种算法的BER对比

下载: 全尺寸图片幻灯片

图 8 N为64时，p₁为0.04时，3种算法的BER对比

下载: 全尺寸图片幻灯片

图 9 N为32时，p₁为0.01时，3种算法的BER对比

下载: 全尺寸图片幻灯片

图 7 N为48时，p₁为0.04时，3种算法的BER对比

下载: 全尺寸图片幻灯片

本文进行了3种算法在复杂度上的比较。众所周知OMP算具有非常高的组合优化能力，虽然算法精度不高，但是拥有非常低的算法复杂度，OMP算法复杂度为O(NK²)。本文所提FBMPO算法测度基的更新运算主要集中在式(18)上，其复杂度为O(ML)，算法所选取的前K个最优搜索基解和进行迭代的次数为设定的R次，因此算法复杂度为O(RMLK)，相比较之下FBMPO算法复杂度要高于OMP算法。而BCS算法没有进行迭代优化，算法复杂度最高，为O(MN³K)。本文对上述3种算法重构的计算机运算时间也进行了比较，3种不同算法在不同训练序列时的运算时间比较如表3所示。仿真实验采用的计算机处理器型号为Intel Core i5，主频为2.5 GHz，通过表3的比较可以发现，OMP算法在所运用的计算时间上最少，而BCS算法所消耗的计算机运算时间最多，同时当导频训练序列增加的时候，所运用的计算机运算时间也随之增大。

表 3 不同算法在不同训练序列时的运算时间(s)

	N=32	N=48	N=64
OMP	6.4284	8.0413	11.4591
BCS	18.2541	20.8931	24.5212
FBMPO	11.4618	13.7194	15.0951

下载: 导出CSV

| 显示表格

5. 结论

传统的稀疏信道估计方法极大程度上受到训练矩阵中的噪声和在训练矩阵中的列相干干扰。它们的主要目标是利用稀疏结构的信息，但是未考虑后验信息的不确定性。为了提高信道估计的性能，本文利用观测矩阵优化的快速贝叶斯匹配追踪算法在海上进行信道估计，不仅利用了海上信道稀疏的特性，同时也结合了贝叶斯框架，达到更加精确的优化效果。经过仿真实验，本文所提FBMPO算法信道估计优于OMP算法和BCS算法，并且当稀疏度概率降低的时候，拥有更低的误码率和均方误差。

图 1 基于DASH的立体全景视频流系统结构图

下载: 全尺寸图片幻灯片

图 2 基于tile的视点预测概率模型

下载: 全尺寸图片幻灯片

图 3 算法结构图

下载: 全尺寸图片幻灯片

图 4 4G和5G带宽轨迹

下载: 全尺寸图片幻灯片

图 5 各算法性能比较

下载: 全尺寸图片幻灯片

图 6 各算法CDF比较

下载: 全尺寸图片幻灯片

表 1 时间测试与视点预测精度

方法静态
显著性提取动态
显著性提取视差提取总共时间预测精度

Plato – – – 67.4 ms 0.89
本文 4.2 ms 10.3 ms 23.7 ms 121.6 ms 0.91

下载: 导出CSV

参考文献(22)

[1]	高媛, 刘德建, 黄真真, 等. 虚拟现实技术促进学习的核心要素及其挑战[J]. 电化教育研究, 2016, 37(10): 77–87,103. GAO Yuan, LIU Dejian, HUANG Zhenzhen, et al. The core factors and challenges of virtual reality technology enhanced learning[J]. e-Education Research, 2016, 37(10): 77–87,103.
[2]	CISCO. Cisco visual networking index: Global mobile data traffic forecast update, 2017-2022[EB/OL]. https://s3.amazonaws.com/media.mediapost.com/uploads/CiscoForecast.pdf, 2019.
[3]	HUANG Jingwei, CHEN Zhili, CEYLAN D, et al. 6-DOF VR videos with a single 360-camera[C]. 2017 IEEE Virtual Reality, Los Angeles, USA, 2017: 37–44.
[4]	JIANG Xiaolan, CHIANG Yihan, ZHAO Yang, et al. Plato: Learning-based adaptive streaming of 360-Degree videos[C]. 2018 IEEE 43rd Conference on Local Computer Networks, Chicago, USA, 2018: 393–400.
[5]	KAN Nuowen, ZOU Junni, TANG Kexin, et al. Deep reinforcement learning-based rate adaptation for adaptive 360-Degree video streaming[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Brighton, UK, 2019: 4030–4034.
[6]	NAIK D, CURCIO I D D, and TOUKOMAA H. Optimized viewport dependent streaming of stereoscopic omnidirectional video[C]. The 23rd Packet Video Workshop, Amsterdam, Netherlands, 2018: 37–42.
[7]	CURCIO I D D, NAIK D, TOUKOMAA H, et al. Subjective quality of spatially asymmetric omnidirectional stereoscopic video for streaming adaptation[C]. First International Conference on Smart Multimedia, Toulon, France, 2018: 417–428.
[8]	CURCIO I D D, TOUKOMAA H, and NAIK D. Bandwidth reduction of omnidirectional viewport-dependent video streaming via subjective quality assessment[C]. The 2nd International Workshop on Multimedia Alternate Realities, Mountain View, USA, 2017: 9–14.
[9]	XU Guisen, WANG Yueming, WANG Zhenyu, et al. Asymmetric representation for 3D panoramic video[C]. 18th Pacific-Rim Conference on Multimedia, Harbin, China, 2018: 683–690.
[10]	CHANG Yongjun and KIM M. Binocular suppression-based stereoscopic video coding by joint rate control with KKT conditions for a hybrid video codec system[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(1): 99–111. doi: 10.1109/TCSVT.2014.2330658
[11]	杨福星, 孙博文, 夏进. 基于DASH的全景视频传输应用研究[J]. 无线互联科技, 2018, 15(3): 25–28. doi: 10.3969/j.issn.1672-6944.2018.03.010 YANG Fuxing, SUN Bowen and XIA Jin. Study on the panoramic video transmission based on DASH[J]. Wireless Internet Technology, 2018, 15(3): 25–28. doi: 10.3969/j.issn.1672-6944.2018.03.010
[12]	KÖPÜKLÜ O, KOSE N, GUNDUZ A, et al. Resource efficient 3d convolutional neural networks[C]. IEEE/CVF International Conference on Computer Vision Workshop, Seoul, Korea (South), 2019: 1910–1919.
[13]	LAGOUDAKIS M G and PARR R. Least-squares policy iteration[J]. Journal of Machine Learning Research, 2003, 4: 1107–1149.
[14]	BAN Yixuan, XIE Lan, XU Zhimin, et al. An optimal spatial-temporal smoothness approach for tile-based 360-Degree video streaming[C]. 2017 IEEE Visual Communications and Image Processing, St. Petersburg, USA, 2017: 1–4.
[15]	BATTISTI F, CARLI M, LE CALLET P, et al. Toward the assessment of quality of experience for asymmetric encoding in immersive media[J]. IEEE Transactions on Broadcasting, 2018, 64(2): 392–406. doi: 10.1109/TBC.2018.2828607
[16]	https://github.com/rao567/3dvideo.
[17]	CORBILLON X, DE SIMONE F, and SIMON G. 360-Degree video head movement dataset[C]. The 8th ACM on Multimedia Systems Conference, Taipei, China, 2017: 199–204.
[18]	VAN DER HOOFT J, PETRANGELI S, WAUTERS T, et al. HTTP/2-based adaptive streaming of HEVC video over 4G/LTE networks[J]. IEEE Communications Letters, 2016, 20(11): 2177–2180.
[19]	RACA D, LEAHY D, SREENAN C J, et al. Beyond throughput, the next generation: A 5G dataset with channel and context metrics[C]. The 11th ACM Multimedia Systems Conference, Istanbul, Turkey, 2020: 303–308.
[20]	YOUTUBE, Recommended upload encoding settings[EB/OL].https://yongqiang.blog.csdn.net/article/details/103602709, 2019.
[21]	NGUYEN D V, TRAN H T T, PHAM A T, et al. An optimal tile-based approach for viewport-adaptive 360-Degree video streaming[J]. IEEE Journal on Emerging and Selected Topics in Circuits and Systems, 2019, 9(1): 29–42. doi: 10.1109/JETCAS.2019.2899488
[22]	SAYGILI G, GURLER C G, and TEKALP A M. Evaluation of asymmetric stereo video coding and rate scaling for adaptive 3D video streaming[J]. IEEE Transactions on Broadcasting, 2011, 57(2): 593–601. doi: 10.1109/TBC.2011.2131450

施引文献

期刊类型引用(6)

1.	倪晗玥，杨劲松，任林，李晓辉，董昌明，陈文. 基于卫星遥感资料的近海海上通信环境研究. 移动通信. 2024(11): 35-44+85 . 百度学术
2.	Zhang Qianqian，Xu Yanli. Channel estimation based on multi-armed approach for maritime OFDM wireless communications. The Journal of China Universities of Posts and Telecommunications. 2023(04): 75-85+120 . 必应学术
3.	戴亚盛，马柏林，乐光学. 复杂气象环境海上无线通信信道衰落估计模型. 电信科学. 2022(03): 158-171 . 百度学术
4.	董浩，宋亮，化存卿，刘玲亚，唐俊华. 海上通信技术发展与研究综述. 电信科学. 2022(05): 1-17 . 百度学术
5.	强夕竹，乔钢，周锋. 一种改进的水声正交频分复用稀疏信道时延估计算法. 电子与信息学报. 2021(03): 817-825 . 本站查看
6.	袁智勇，钟章生. 无线光通信网络的最优信道选择方法研究. 激光杂志. 2021(11): 144-149 . 百度学术

其他类型引用(2)

资源附件(0)

访问统计

图(6) / 表(1)

计量

文章访问数: 874
HTML全文浏览量: 450
PDF下载量: 98
被引次数: 8

1. 引言
2. 海上稀疏信道模型
3. FBMPO稀疏信道估计
3.1 优化观测矩阵
3.2 基于快速贝叶斯匹配追踪稀疏信道估计
4. 仿真实验
5. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于强化学习的立体全景视频自适应流

doi: 10.11999/JEIT200908

通讯作者:
陈建　chenjian-fzu@163.com

计量

Adaptive Streaming of Stereoscopic Panoramic Video Based on Reinforcement Learning

1. 引言

2. 海上稀疏信道模型

3. FBMPO稀疏信道估计

3.1 优化观测矩阵

3.2 基于快速贝叶斯匹配追踪稀疏信道估计

4. 仿真实验

5. 结论

期刊类型引用(6)

其他类型引用(2)

计量

目录

1. 引言

2. 海上稀疏信道模型

3. FBMPO稀疏信道估计

3.1 优化观测矩阵

3.2 基于快速贝叶斯匹配追踪稀疏信道估计

4. 仿真实验

5. 结论

方法	静态显著性提取	动态显著性提取	视差提取	总共时间	预测精度
Plato	–	–	–	67.4 ms	0.89
本文	4.2 ms	10.3 ms	23.7 ms	121.6 ms	0.91

留言板

基于强化学习的立体全景视频自适应流

doi: 10.11999/JEIT200908

通讯作者: 陈建 chenjian-fzu@163.com

计量

出版历程

Adaptive Streaming of Stereoscopic Panoramic Video Based on Reinforcement Learning

1. 引言

2. 海上稀疏信道模型

3. FBMPO稀疏信道估计

3.1 优化观测矩阵

3.2 基于快速贝叶斯匹配追踪稀疏信道估计

4. 仿真实验

5. 结论

期刊类型引用(6)

其他类型引用(2)

计量

出版历程

目录

1. 引言

2. 海上稀疏信道模型

3. FBMPO稀疏信道估计

3.1 优化观测矩阵

3.2 基于快速贝叶斯匹配追踪稀疏信道估计

4. 仿真实验

5. 结论

通讯作者:
陈建　chenjian-fzu@163.com