混合数据的多集群系统中数据价值与信息年龄的联合优化

罗佳; 陈前斌; 唐伦

doi:10.11999/JEIT230023

混合数据的多集群系统中数据价值与信息年龄的联合优化

doi: 10.11999/JEIT230023

罗佳^{1, 2, ,},
陈前斌²,
唐伦²

1.
重庆邮电大学网络空间安全与信息法学院重庆 400065
2.
重庆邮电大学通信与信息工程学院移动通信技术重点实验室重庆 400065

基金项目: 国家自然科学基金(62071078)，重庆市自然科学基金(cstc2021jcyj-bsh0175)，四川省科技计划(2021YFQ0053)

详细信息

作者简介:
罗佳：男，讲师，博士，研究方向为下一代无线通信网络、人工智能、区块链等

陈前斌：男，教授，博士生导师，研究方向为个人通信、多媒体信息处理与传输、异构蜂窝网络等

唐伦：男，教授，博士生导师，研究方向为下一代无线通信网络、异构蜂窝网络、图像处理等

通讯作者:
罗佳　luojia@cqupt.edu.cn

中图分类号: TN929.5
计量
- 文章访问数: 474
- HTML全文浏览量: 163
- PDF下载量: 62
- 被引次数: 0
出版历程
- 收稿日期: 2023-01-16
- 修回日期: 2023-04-18
- 网络出版日期: 2023-04-26
- 刊出日期: 2024-01-17

Joint Optimization of Data Value and Age of Information in Multi-cluster System with Mixed Data

LUO Jia^{1, 2
, ,},
CHEN Qianbin²,
TANG Lun²

1.
School of Cyber Security and Information Law, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
2.
Key Laboratory of Mobile Communication Technology, School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

Funds: The National Natural Science Foundation of China (62071078), The Chongqing Municipal Natural Science Foundation (cstc2021jcyj-bsh0175), The Sichuan Science and Technology Program (2021YFQ0053)

摘要

摘要: 信息年龄(AoI)是一种业界新兴的时间相关指标，其经常用于评估接收数据的新鲜度。该文考虑了一个视频数据与环境数据混合的多集群视频直播系统，并制定调度策略以联合优化系统数据价值与信息年龄。为克服优化问题中动作空间过大导致难以实现有效求解的问题，该文将优化问题的调度策略分解为相互关联的内外两层策略，外层策略利用深度强化学习实现集群间的信道分配，内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练，仿真结果显示，与现有调度策略相比，该文所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。
- 信息年龄 /
- 数据价值 /
- 视频直播系统 /
- 深度强化学习 /
- 调度策略
Abstract: Age of Information (AoI) is an emerging time-related indicator in the industry. It is often used to evaluate the freshness of received data. Considering a multi-cluster live streaming system with mixed video data and environmental data, a scheduling policy is formulated to jointly optimize the system data value and AoI. To overcome the problem that the effective solution to the optimization problem is difficult to achieve due to the action space being too large, the scheduling policy of the optimization problem is decomposed into two interrelated internal layer and external layer policies. The external layer policy utilizes deep reinforcement learning for channel allocation between clusters. The internal layer policy implements the link selection in the cluster on the basis of the constructed virtual queue. The two-layer policy embeds the internal layer policy of each cluster into the external layer policy for training. Simulation results show that compared with the existing scheduling policy, the proposed scheduling policy can increase the time-averaged data value of received data and reduce the time-averaged AoI.
- Age of Information (AoI) /
- Data value /
- Live streaming system /
- Deep reinforcement learning /
- Scheduling policy

HTML全文

1. 引言

不同于传统无线传输技术主要关注传输速率或时延，视频直播等新兴移动互联网应用由于其业务性质对网络数据的时效性有了更精细化的需求，其亟需一种有效的性能指标去度量相关数据或信息的时效性。为进一步量化网络数据的时效性，越来越多的学者提出采用信息年龄(Age of Information, AoI)来衡量数据的新鲜度或及时性。AoI综合考虑数据的生成时间及传输时延。对于某个节点的AoI其关注对象是该节点最新收到的数据包，AoI被定义为该最新数据包自生成以来经过的时间^[1]。

关于AoI的研究，文献[1]最早提出了AoI的概念。近年来，AoI逐渐被研究人员作为性能指标来衡量无线网络中的数据新鲜度。文献[2]基于搭载传感器的无人机网络，通过联合考虑感知时间、传输时间、无人机轨迹以及任务调度来实现AoI的最小化。文献[3]则进步一将无人机辅助的物联网与能量收集技术相结合，研究了相应的AoI优化问题。文献[4]基于具有功率约束的传感器物联网，研究了时变信道下中心控制器的AoI优化问题。文献[5]则针对AoI研究了数据传输时延为多个时隙的物联网环境下相应的在线优化问题。

关于视频直播的研究，相关文献主要关注直播的用户体验质量(Quality of Experience, QoE)，QoE与视频质量和传输时延有关。例如，文献[6]在一个独立的5G测试环境中测试了上行视频传输在时延方面的性能，并指出合理的上下行配比能有效缓解视频直播应用在上行链路方面的数据拥堵。文献[7]将视频质量定义为与视频平均码率有关的对数函数，在满足时延约束的条件下最大化无线接入网中的视频质量。文献[8-10]也基于具体的网络模型给出了视频直播的QoE定义并进行优化。

现有研究通常将AoI作为单一指标来评估网络的数据新鲜度，然而，在某些应用中，也需考虑接收数据的价值。数据价值可以看作数据对于系统业务的重要程度，例如，在视频直播场景，对于一个以看重视频质量的消费群体为目标客户的直播活动，文献[7]中的视频码率可用于衡量视频的数据价值。对于利用边缘服务器实现机器学习的边缘智能场景，文献[11,12]则指出无线传输数据的不确定性及其信噪比可用于衡量该场景下机器学习训练数据的重要程度。另外，在对重要活动的直播中，可使用无线传感器来收集活动现场的实时环境数据，不同的环境数据具有不同的价值。在数据价值敏感的系统中，需在保证接收数据具有一定价值的同时提高数据的新鲜度。此外，现有关于视频直播的研究主要聚焦视频的QoE优化，而较少关注视频数据的AoI，作为同样对数据新鲜度要求较高的应用场景，视频直播同样需要关注对于AoI的优化。基于以上观察，本文的贡献主要有以下两个方面：

(1) 针对AoI的研究中数据价值考虑不足的问题，本文基于直播终端和无线传感器共同部署的视频直播系统，以直播终端为中心划分为视频数据与环境数据混合的多集群系统，利用环境数据需求的急迫性与视频码率构造了系统的数据价值等级划分，并建立关于时间平均数据价值和AoI的联合优化问题。

(2) 为实现有效的问题求解，本文将原问题的调度策略分解为相互关联的内外两层策略，同时，考虑到AoI的动态变化特性，提出一种基于深度强化学习的双层调度策略以克服原问题动作空间过大的问题。仿真结果则验证了本文所提方法的有效性。

2. 系统模型和问题

对基于无线链路的视频直播系统，多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站，基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务，同时基站也需通过核心网将源视频传播至其他地理区域的终端以提供大范围的直播服务。本文主要考虑无线直播系统的第1个环节，即直播视频源终端到相应基站的上行传输链路。

具体来说，本文考虑一个针对重要活动的视频直播系统，一方面，单个基站需收集其覆盖范围内的直播源视频，为实现对同一重要活动的全方位直播， $N$ 个连接或配备摄像设备的直播终端在活动场馆的不同位置以不同视角对该活动进行直播，直播终端作为直播视频源通过上行链路传输源视频到基站。另一方面，为保证重要活动的实施效果，需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据，传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。系统一共有 $L\left(L > N\right)$ 个带宽不同的上行无线信道，为保证视频直播的连续性，调度策略在每个时隙需为每个直播终端均分配1个上行信道。此外，还需为无线传感器分配回传其数据的上行信道，因此，每个时隙最多有 $L-N$ 个信道可被分配用于进行传感器数据的上行传输，其中 $L-N\le N$ 。

在具体实施时，为了向监控中心提供及时且多方位的环境相关数据，将以上两类终端以直播终端为中心划分为大小相等的 $N$ 个集群，每个集群包含的终端数用 $M$ 表示，其中包含一个直播终端以及在其附近的 $M-1$ 个无线传感器。具体的终端索引号用 $m$ 表示， $m=1$ 对应集群中的直播终端， $m\left(1 < m\le M\right)$ 则对应集群中的无线传感器。为避免单个集群内(即同一位置附近)的无线传感器占用过多的信道资源，除了直播终端，集群 $n$ 在时隙 $t$ 最多可选择一个无线传感器上传其采样的环境相关数据。直播视频传输时可以视频时长为单位将视频数据分割为多个时长为 $z$ 的视频数据包进行传输。对于不同的直播终端，其对视频码率选择的不同可使得各自视频数据包的大小存在差异，而对于同一直播终端，由于存在动态的码率自适应策略，其数据包大小在不同时隙也可能存在差异。对于直播视频，其数据包的视频码率划分为 $I$ 个等级， $i\left(i\in \left\{\mathrm{1,2},\cdots ,I\right\}\right)$ 表示具体某个视频数据包的码率索引号，索引号越高对应的视频码率也越高。 ${x}_{i}\left({x}_{i}\in \mathbb{X}\right)$ 为对应的视频码率， $\mathbb{X}$ 则为直播系统所支持的视频码率集合。因此，单个视频数据包大小为 $z{x}_{i}$ 。此外，上行传输所分配的信道具有不同的带宽和增益，对应的各终端上行传输速率也存在差异。 $\mathbb{R}$ 表示系统支持的上行传输速率集合， ${R}_{l}\left({R}_{l}\in \mathbb{R}\right)$ 则为信道 $l\left(l\in \left\{\mathrm{1,2},\cdots ,L\right\}\right)$ 的上行传输速率。单位时隙时长为 $b$ ，用 ${d}_{\mathrm{v}}$ 表示单个视频数据包完成上行传输所需的时隙数，基于上述讨论可知

${d}_{\mathrm{v}}=\left\lceil\frac{z{x}_{i}}{{R}_{l}b}\right\rceil , \forall {x}_{i}\in \mathbb{X},\forall {R}_{l}\in \mathbb{R}$

(1)

${p}_{n}^{{x}_{i}}$ 表示集群 $n\left(n\in \left\{\mathrm{1,2},\cdots ,N\right\}\right)$ 的直播终端其视频数据包码率为 ${x}_{i}$ 的概率，因此可得

$\sum\limits_{i=1}^{I}{p}_{n}^{{x}_{i}}=1, \forall n\in \left\{\mathrm{1,2},\cdots ,N\right\}$

(2)

对于传感器数据的上传，由于并非所有传感器均在每个时隙接入无线信道进行上传，因此采用类似文献[]的Will模型，即对于在时隙 $t$ 分配到信道的传感器，其在时隙 $t$ 之前采样的数据均被丢弃，仅上传在时隙 $t$ 最新采样的数据，直到该数据完成上行传输才会释放被分配的信道。 $\mathbb{Y}$ 表示传感器支持的环境数据包大小集合， $\left|\mathbb{Y}\right|=Y$ , $j\left(j\in \left\{\mathrm{1,2},\cdots ,Y\right\}\right)$ 表示环境数据包大小的索引号。 ${y}_{j}\left({y}_{j}\in \mathbb{Y}\right)$ 则为对应的数据包大小。用 ${d}_{\mathrm{s}}$ 表示传感器数据完成上行传输所需的时隙数，因此有

${d}_{\mathrm{s}}=\left\lceil\frac{{y}_{j}}{{R}_{l}b}\right\rceil, \forall {y}_{j}\in \mathbb{Y},\forall {R}_{l}\in \mathbb{R}$

(3)

${\omega }_{n,m}^{{y}_{j}}$ 表示集群 $n$ 中的传感器 $m\left(m\in \left\{\mathrm{2,3},\cdots ,M\right\}\right)$ 采样的数据包大小为 ${y}_{j}$ 的概率，因此可得

$\sum\limits_{j=1}^{Y}{\omega }_{n,m}^{{y}_{j}}=1, \forall n\in \left\{\mathrm{1,2},\cdots ,N\right\},\forall m \in \left\{\mathrm{2,3},\cdots ,M\right\}$

(4)

${\varphi }_{l,n,m}\left(t\right)\in \left\{0, 1\right\}$ 表示集群 $n$ 内终端(包括直播终端和传感器) $m$ 在时隙 $t$ 的信道 $l$ 上的状态，如果终端 $\left(n,m\right)$ 在时隙 $t$ 被分配到信道 $l\left(l\in \left\{\mathrm{1,2},\cdots ,L\right\}\right)$ 进行上行传输，则 ${\varphi }_{l,n,m}\left(t\right)=1$ ，否则， ${\varphi }_{l,n,m}\left(t\right)=0$ 。当 $\displaystyle\sum\nolimits _{l=1}^{L}{\phi }_{l,n,m}\left(t\right)=1$ 时，即终端 $\left(n,m\right)$ 在时隙 $t$ 占用无线信道进行上行传输，对于正在传输的数据包，用 ${\mu }_{n,m}\left(t\right)$ 表示其数据生成的时隙， ${\nu }_{n,m}\left(t\right)$ 则表示该数据包完成上行传输所需的时隙数，因此有

${\nu }_{n,m}\left(t\right)=\left\{\begin{aligned} & \left\lceil\frac{z{x}_{{i}_{n}\left(t\right)}}{{R}_{l}b}\right\rceil\sum\limits _{l=1}^{L}{\phi }_{l,n,m}\left(t\right),m=1\\ & \left\lceil\frac{{y}_{{j}_{n,m}\left(t\right)}}{{R}_{l}b}\right\rceil\sum \limits_{l=1}^{L}{\phi }_{l,n,m}\left(t\right),1 < m\le M\end{aligned}\right.$

(5)

其中， ${i}_{n}\left(t\right)$ 表示时隙 $t$ 集群 $n$ 正在传输的直播终端数据包对应的码率等级， ${j}_{n,m}\left(t\right)$ 则表示时隙 $t$ 传感器 $\left(n,m\right)\left(m\ne 1\right)$ 正在传输的环境数据包大小的索引号。

2.1 信息年龄

由于对直播视频与现场环境数据的需求均看重数据的及时性或新鲜度，因此本文采用AoI作为系统性能的评估指标。AoI被定义为目标节点最新接收到的数据包自其生成以来所经过的时间，基于此，对于在时隙 $t$ 基站已完成接收的来自终端 $\left(n,m\right)$ 的最新数据包(并非正在传输的数据包)，用 ${\mu }'_{n,m}$ 表示其数据生成的时隙。 ${\varDelta }_{n,m}\left(t\right)$ 表示基站在时隙 $t$ 关于终端 $\left(n,m\right)$ 数据包的AoI，则有 ${\varDelta }_{n,m}\left(t\right)=t-{\mu }'_{n,m}$ 。如果终端 $\left(n,m\right)$ 在时隙 $t$ 完成了对应数据包的上行传输，则相应的AoI在时隙 $t+1$ 需更新为 ${\nu }_{n,m}\left(t\right)=t+ 1- {\mu }_{n,m}\left(t\right)$ ，否则，AoI需更新为 ${\varDelta }_{n,m}\left(t\right)+1=t+ 1- {\mu }'_{n,m}$ 。综上所述， ${\varDelta }_{n,m}\left(t\right)$ 的更新遵循如式(6)

${\varDelta }_{n,m}\left(t+1\right)=\left\{\begin{aligned} & {\nu }_{n,m}\left(t\right),\qquad \sum\limits _{l=1}^{L}{\phi }_{l,n,m}\left(t\right)=1,且t+1-{\mu }_{n,m}\left(t\right)={\nu }_{n,m}\left(t\right)\\ & {\varDelta }_{n,m}\left(t\right)+1,\sum \limits_{l=1}^{L}{\phi }_{l,n,m}\left(t\right)=0,或t+1-{\mu }_{n,m}\left(t\right)\ne {\nu }_{n,m}\left(t\right)\end{aligned}\right.$

(6)

因此，基站在时隙 $t$ 关于其接收数据的AoI可计算为

${\varDelta }_{\mathrm{B}\mathrm{S}}=\frac{1}{MN}\sum\limits_{n=1}^{N}\sum\limits_{m=1}^{M}{\varDelta }_{n,m}\left(t\right)$

(7)

2.2 数据价值

除了用AoI衡量数据的新鲜度，还需考虑数据本身的价值。对于注重视频质量的直播系统，本文采用视频码率来衡量视频数据价值，视频码率等级越高其价值也越高。基站主要关注接收成功时视频数据包的码率等级，对于集群 $n$ ，用 ${\mathcal{I}}_{n}\left(t\right)$ 表示基站在时隙 $t$ 接收到对应直播视频数据包的码率等级，如果集群 $n$ 的直播终端在时隙 $t$ 完成其视频数据包的上行传输，则 ${\mathcal{I}}_{n}\left(t\right)={i}_{n}\left(t\right)$ ，否则， ${\mathcal{I}}_{n}\left(t\right)=0$ 。因此， ${\mathcal{I}}_{n}\left(t\right)$ 可由式(8)计算

$\begin{split} & {\mathcal{I}}_{n}\left(t\right)=\\ & \left\{\begin{aligned} & {i}_{n}\left(t\right)\displaystyle\sum_{l=1}^{L}{\varphi }_{l,n,1}\left(t\right),t+1-{\mu }_{n,1}\left(t\right)={\nu }_{n,1}\left(t\right)\\ & 0,\qquad\qquad\qquad\quad\, t+1-{\mu }_{n,1}\left(t\right)\ne {\nu }_{n,1}\left(t\right)\end{aligned}\right. \end{split}$

(8)

类似的，传感器采样的环境数据也有不同的价值分级，设环境数据的价值分为 $F$ 个等级，等级越高则表示价值越高。 ${\beta }_{n,m}^{f}$ 表示集群 $n$ 的传感器 $m$ 其数据包价值等级为 $f\left(f\in \left\{\mathrm{1,2},\cdots ,F\right\}\right)$ 的概率，因此有

$\sum\limits_{f=1}^{F}{\beta }_{n,m}^{f}=1, \forall n\in \left\{\mathrm{1,2},\cdots ,N\right\},\forall m\in \left\{2,3,\cdots ,M\right\}$

(9)

对于传感器 $\left(n,m\right)\left(m\ne 1\right)$ ，当 $\displaystyle\sum\nolimits_{l=1}^{L}{\varphi }_{l,n,m}\left(t\right) = 1$ 时，用 ${f}_{n,m}\left(t\right)$ 表示其在时隙 $t$ 传输的数据包所对应的价值等级， ${\mathcal{F}}_{n,m}\left(t\right)$ 则表示基站在时隙 $t$ 接收到对应环境数据包的价值等级，则有

$\begin{split} & {\mathcal{F}}_{n,m}\left(t\right)\\ & =\left\{\begin{aligned} & {f}_{n,m}\left(t\right)\sum\limits_{l=1}^{L}{\varphi }_{l,n,m}\left(t\right),t + 1 - {\mu }_{n,m}\left(t\right) = {\nu }_{n,m}\left(t\right)\\ & 0,\qquad\qquad\qquad\qquad\;\; t+1-{\mu }_{n,m}\left(t\right)\ne {\nu }_{n,m}\left(t\right)\end{aligned}\right. \end{split}$

(10)

综上，基站在时隙 $t$ 关于其接收数据的价值可计算为

$\mathcal{H}\left(t\right)=\frac{1}{MN}\sum\limits_{n=1}^{N}\left({\mathcal{I}}_{n}\left(t\right)+\sum\limits_{m=2}^{M}{\mathcal{F}}_{n,m}\left(t\right)\right)$

(11)

2.3 问题建模

在每个时隙的开始，基站需基于其调度策略将空闲信道分配给需要上传数据的终端。考虑数据价值和AoI存在相互影响的关系且两者性能的优化分别对应各自的最大化和最小化，因此，为实现系统数据价值和AoI的联合优化，本文采用时间平均的数据价值与AoI比值(Ratio of Data Value to AoI, RDVA)。RDVA可用于衡量系统在单位时隙的数据新鲜度下能传输的数据价值大小，更大的RDVA意味着相应数据具有较好的数据新鲜度和较高的数据价值。相应的优化问题可表述为

$\begin{split} & {\mathcal{P}}_{1}:\underset{{\phi }_{l,n,m}\left(t\right)}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{\dfrac{\underset{T\to \infty }{\mathrm{lim}}\dfrac{1}{T}\displaystyle\sum _{t=1}^{T}\mathrm{E}\left[\mathcal{H}\left(t\right)\right]}{\underset{T\to \infty }{\mathrm{lim}}\dfrac{1}{T}\displaystyle\sum _{t=1}^{T}\mathrm{E}\left[{\varDelta }_{\mathrm{B}\mathrm{S}}\left(t\right)\right]}\right\} \\ & \mathrm{s}.\mathrm{t}.\;\; \mathrm{C}1:\displaystyle\sum_{l=1}^{L}{\varphi }_{l,n,1}\left(t\right)=1, \forall n,t \\ & \quad\;\;\; \mathrm{C}2:\displaystyle\sum_{l=1}^{L}\displaystyle\sum_{m=2}^{M}{\varphi }_{l,n,m}\left(t\right)\le 1, \forall n,t\\ & \quad\;\;\; \mathrm{C}3:\displaystyle\sum_{n=1}^{N}\displaystyle\sum_{m=1}^{M}{\varphi }_{l,n,m}\left(t\right)\le 1,\forall l,t \\ & \quad\;\;\; \mathrm{C}4: \displaystyle\sum_{l=1}^{L}\displaystyle\sum_{n=1}^{N}{\sum }_{m=2}^{M}{\varphi }_{l,n,m}\left(t\right)\le L-N, \forall t \end{split}$

(12)

约束条件 $\mathrm{C}1$ 表示为保证视频直播的连续性，调度策略在每个时隙需为每个直播终端均分配1个上行信道。约束条件 $\mathrm{C}2$ 表示为避免单个集群的传感器占用过多信道资源，调度策略在每个时隙对任意集群 $n$ 最多选择一个传感器上传其采样的环境数据包。约束条件 $\mathrm{C}3$ 表示每个信道最多只能与一个终端配对。约束条件 $\mathrm{C}4$ 则表示每个时隙最多有 $L-N$ 个信道可被分配用于进行传感器数据的上行传输。

3. 调度策略

用 $\bar{\mathcal{H}}$ 和 $\bar{\mathcal{A}}$ 分别表示基站接收数据的时间平均价值和AoI，即

$\qquad \bar{\mathcal{H}}=\underset{T\to \infty }{\mathrm{lim}}\frac{1}{T}\sum\limits_{t=1}^{T}\mathrm{E}\left[\mathcal{H}\left(t\right)\right]$

(13)

$\qquad {\bar{\varDelta }}_{\mathrm{B}\mathrm{S}}=\underset{T\to \infty }{\mathrm{lim}}\frac{1}{T}\sum\limits_{t=1}^{T}\mathrm{E}\left[{\varDelta }_{\mathrm{B}\mathrm{S}}\left(t\right)\right]$

(14)

${q}^{*}$ 表示问题 ${\mathcal{P}}_{1}$ 目标函数的最优值，因此有 ${q}^{*}= {\bar{\mathcal{H}}}^{\mathcal{*}}/{\bar{{\varDelta }}}_{\mathrm{B}\mathrm{S}}^{*}$ ，其中， ${\bar{\mathcal{H}}}^{\mathcal{*}}$ 和 ${\bar{{\varDelta }}}_{\mathrm{B}\mathrm{S}}^{*}$ 分别对应采用最优策略 ${\varphi }_{l,n,m}^{*}\left(t\right)$ 时 $\stackrel{-}{\mathcal{H}}$ 和 ${\bar{\varDelta }}_{\mathrm{B}\mathrm{S}}$ 的值。根据文献[]中的定理2，当且仅当下式成立时，问题 ${\mathcal{P}}_{1}$ 的目标函数取得最优值 ${q}^{*}$

$\underset{{\varphi }_{l,n,m}\left(t\right)}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{\bar{\mathcal{H}}-{q}^{*}{\bar{\varDelta }}_{\mathrm{B}\mathrm{S}}\right\}={\bar{\mathcal{H}}}^{\mathcal{*}}-{q}^{*}{\bar{{\varDelta }}}_{\mathrm{B}\mathrm{S}}^{*}=0$

(15)

因此，问题 ${\mathcal{P}}_{1}$ 可等价地转化为如式(16)的减法形式

$\begin{split} & {\mathcal{P}}_{2}:\underset{{\phi }_{l,n,m}\left(t\right)}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{\stackrel-{\mathcal{H}}-{q}^{*}{\stackrel-{\varDelta }}_{\mathrm{B}\mathrm{S}}\right\},\\ & \qquad \mathrm{s}.\mathrm{t}.\;\mathrm{C}1～\mathrm{C}4 \end{split}$

(16)

由于 ${q}^{*}$ 未知，所以问题 ${\mathcal{P}}_{2}$ 仍难以求解。为便于求解，定义如式(17)变量 $q\left(t\right)$ 代替问题 ${\mathcal{P}}_{2}$ 中的未知量 ${q}^{*}$

$q\left(t\right)=\frac{\dfrac{1}{t}\displaystyle\sum _{\tau =1}^{t}\mathrm{E}\left[\mathcal{H}\left(\tau \right)\right]}{\dfrac{1}{t}\displaystyle\sum _{\tau =1}^{t}\mathrm{E}\left[{\varDelta }_{\mathrm{B}\mathrm{S}}\left(\tau \right)\right]}=\frac{\bar{\mathcal{H}}\left(t\right)}{{\bar{\varDelta }}_{\mathrm{B}\mathrm{S}}\left(t\right)}$

(17)

其中， $q\left(1\right)=0$ ，参数 $q\left(t\right)$ 的值取决于过往的调度决策。将 ${q}^{*}$ 替换为 $q\left(t\right)$ ，则问题 ${\mathcal{P}}_{2}$ 可转化为

$\begin{split} & {\mathcal{P}}_{3}:\underset{{\phi }_{l,n,m}\left(t\right)}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{\stackrel-{\mathcal{H}}-q\left(t\right){\stackrel-{\varDelta }}_{\mathrm{B}\mathrm{S}}\right\}, \\ & \qquad \mathrm{s}.\mathrm{t}.\;\;\mathrm{C}1～\mathrm{C}4 \end{split}$

(18)

由于AoI的动态变化特性，问题 ${\mathcal{P}}_{3}$ 可采用深度强化学习进行求解。调度策略的可行动作空间大小为 $\left(NM\right)!/\left(NM-L\right)!$ ，可以看出，该优化问题具有较大的动作空间，从而使得相应的算法难以实现有效的求解。为应对这一挑战，本文将上述问题的调度策略分解为集群间的信道分配和集群内的链路选择，基于此，可形成一个由内外两层策略组成的分层调度策略。内外两层策略以集群为分界点进行划分，外层策略决定空闲信道分配到哪个集群，包括用于视频数据传输的信道分配和用于环境数据传输的信道分配，内层策略则用于做出链路选择决策，其主要决定集群内传感器与信道配对的情况。

3.1 外层策略

外层策略采用深度强化学习来实现集群间的信道分配，深度强化学习的智能体可通过与环境间的持续交互来学习最优策略。具体来说，本文采用被称为异步优势动作评价(Asynchronous Advantage Actor-Critic, A3C)的深度强化算法^[15]。为表示方便，用 $\boldsymbol{i}\left(t\right),\boldsymbol{j}\left(t\right),\boldsymbol{f}\left(t\right),\boldsymbol{\mu }\left(t\right)$ 和 ${{\boldsymbol{\varDelta}} }_{\mathrm{v}}\left(t\right)$ 分别表示相应的状态向量

${\boldsymbol{i}}\left(t\right)=\left[{i}_{1}\left(t\right),{i}_{2}\left(t\right),\cdots ,{i}_{N}\left(t\right)\right]$

(19)

${\boldsymbol{j}}\left(t\right)=\left[{j}_{\mathrm{1,1}}\left(t\right),{j}_{\mathrm{2,2}}\left(t\right),\cdots ,{j}_{N,M}\left(t\right)\right]$

(20)

${\boldsymbol{f}}\left(t\right)=\left[{f}_{\mathrm{1,1}}\left(t\right),{f}_{\mathrm{2,2}}\left(t\right),\cdots ,{f}_{N,M}\left(t\right)\right]$

(21)

${\boldsymbol{\mu}} \left(t\right)=\left[{\mu }_{\mathrm{1,1}}\left(t\right),{\mu }_{\mathrm{2,2}}\left(t\right),\cdots ,{\mu }_{N,M}\left(t\right)\right]$

(22)

${{\boldsymbol{\varDelta}} }_{\mathrm{v}}\left(t\right)=\left[{{{\varDelta}} }_{\mathrm{1,1}}\left(t\right),{{{\varDelta}} }_{\mathrm{2,2}}\left(t\right),\cdots ,{{{\varDelta}} }_{N,M}\left(t\right)\right]$

(23)

基于此，时隙 $t$ 的状态 $\boldsymbol{s}\left(t\right)$ 可表示为

${\boldsymbol{s}}\left(t\right)=\left[\boldsymbol{i}\left(t\right),\boldsymbol{j}\left(t\right),\boldsymbol{f}\left(t\right),\boldsymbol{\mu }\left(t\right),{{\boldsymbol{\varDelta}} }_{\mathrm{v}}\left(t\right),{{q}}\left(t\right)\right]$

(24)

考虑到每个直播终端均会保持不间断的上行数据传输，而传感器则可能会由于空闲信道的不足而暂时停止传输，因此，可合理假设该视频直播系统中的视频数据传输相比环境数据传输具有更高的优先级。为优先保证视频直播的流畅和稳定，可将传输速率最高的 $N$ 个信道均分配给各集群的直播终端。各信道对应的传输速率按照信道索引号降序排列，即 ${R}_{l}\ge {R}_{l+1}\left(l\in \left\{\mathrm{1,2},\cdots ,L\right\}\right)$ 。基于此，对于时隙 $t$ 的策略动作 $\boldsymbol{a}\left(t\right)$ ，外层策略的动作空间可划分为用于视频数据传输的集群间信道分配和用于环境数据传输的集群间信道分配两类动作，分别用 ${\boldsymbol{a}}_{\mathrm{v}}\left(t\right)$ 和 ${\boldsymbol{a}}_{\mathrm{s}}\left(t\right)$ 表示，即

$\quad {\boldsymbol{a}}\left(t\right)=\left[{\boldsymbol{a}}_{\mathrm{v}}\left(t\right),{\boldsymbol{a}}_{\mathrm{s}}\left(t\right)\right]$

(25)

$\quad {\boldsymbol{a}}_{\mathrm{v}}\left(t\right)=\left[{\varphi }_{1}^{\mathrm{v}}\left(t\right),{\varphi }_{2}^{\mathrm{v}}\left(t\right),\cdots ,{\varphi }_{N}^{\mathrm{v}}\left(t\right)\right]$

(26)

$\quad {\boldsymbol{a}}_{\mathrm{s}}\left(t\right)=\left[{\varphi }_{1}^{\mathrm{s}}\left(t\right),{\varphi }_{2}^{\mathrm{s}}\left(t\right),\cdots ,{\varphi }_{N}^{\mathrm{s}}\left(t\right)\right]$

(27)

其中， ${\varphi }_{n}^{\mathrm{v}}\left(t\right)$ 表示集群 $n$ 的直播终端被分配的信道索引号，为满足问题 ${\mathcal{P}}_{3}$ 的约束条件，神经网络输出层在确定 ${\varphi }_{n}^{\mathrm{v}}\left(t\right)$ 时会将对应输出从大到小映射到信道索引号 $1\mathrm{～}N$ ，因此， ${\varphi }_{n}^{\mathrm{v}}\left(t\right)=l$ 对应问题 ${\mathcal{P}}_{3}$ 的策略动作 ${\varphi }_{l,n,1}\left(t\right)=1$ 。类似的， ${\varphi }_{n}^{\mathrm{s}}\left(t\right)$ 表示用于集群 $n$ 环境数据传输的信道索引号，神经网络输出层在确定 ${\varphi }_{n}^{\mathrm{s}}\left(t\right)$ 时会将对应输出从大到小映射到信道索引号 $N+1$ 到 $L$ ，最小的 $2N-L$ 个输出值对应的 ${\varphi }_{n}^{\mathrm{s}}\left(t\right)$ 则为0，因此， ${\varphi }_{n}^{\mathrm{s}}\left(t\right)=l$ 对应问题 ${\mathcal{P}}_{3}$ 的策略动作 $\displaystyle\sum\nolimits_{m=2}^{M}{\varphi }_{l,n,m}\left(t\right) = 1$ , ${\varphi }_{n}^{\mathrm{s}}\left(t\right)=0$ 则对应 $\displaystyle\sum\nolimits_{l=1}^{L}\displaystyle\sum\nolimits _{m=2}^{M} {\varphi }_{l,n,m}\left(t\right)=0$ 。基于上述的动作空间划分，外层策略的可行动作总数为 $N!N!/\left(2N-L\right)!$ 。基于问题 ${\mathcal{P}}_{3}$ 的目标函数，可定义时隙 $t$ 的奖励函数为

$\begin{split} & r\left(\boldsymbol{s}\left(t\right),\boldsymbol{a}\left(t\right),\boldsymbol{s}\left(t+1\right)\right)\\ & \quad=\sum\limits_{n=1}^{N}\left({\mathcal{I}}_{n}\left(t\right)+\sum\limits_{m=2}^{M}{\mathcal{F}}_{n,m}\left(t\right)\right)\\ & \qquad -q\left(t\right)\sum\limits_{n=1}^{N}\sum\limits_{m=1}^{M}{\varDelta }_{n,m}\left(t\right) \end{split}$

(28)

A3C的目标是最大化累积折扣奖励函数，即状态价值函数，其计算公式为

$\begin{split} {V}_{\pi }\left(\boldsymbol{s}\left(t\right)\right)=& {\mathrm{E}}_{\pi }\left\{\sum\limits_{\tau =0}^{\mathrm{\infty }}\left.{\gamma }^{\tau }r\left(\boldsymbol{s}\left(t+\tau \right),\boldsymbol{a}\left(t+\tau \right),\right.\right.\right.\\ & \left.\left. \boldsymbol{s}\left(t+\tau +1\right)\right)\right|\boldsymbol{s}\left(t\right)\Bigr\} \\[-15pt] \end{split}$

(29)

其中， $\gamma$ 为折扣因子， ${\mathrm{E}}_{\pi }\left\{\cdot \right\}$ 表示智能体采用策略 $\pi$ 进行序贯决策时的期望值。A3C利用多核CPU来运行多个智能体，多核CPU的每个线程包含一个智能体以及相应的环境副本。每个时隙智能体均计算并保存关于神经网络参数的导数，每隔一定数目的时隙，每个智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。一个执行A3C算法的智能体包含两个部分：行动者(Actor)和评价者(Critic)。行动者为一个神经网络表示的策略，其基于当前时隙观察到的状态 $\boldsymbol{s}\left(t\right)$ 决定当前时隙的动作 $\boldsymbol{a}\left(t\right)$ 。评价者则为另一个神经网络，其基于智能体通过环境反馈得到的即时奖励对当前策略进行评估。对于一个特定的智能体，其行动者和评价者的详细情况如下

行动者：用 ${\theta }$ 表示策略参数， $\pi \left(\boldsymbol{a}|\boldsymbol{s},{\theta }\right)$ 为相应策略，表示状态为 $\boldsymbol{s}$ 、参数为 ${\theta }$ 时智能体执行动作 $\boldsymbol{a}$ 的概率。行动者使用策略梯度上升法对参数 ${\theta }$ 进行更新。假设策略关于 ${\theta }$ 可微，则时隙 $t$ 关于 ${\theta }$ 的性能梯度计算为

${{\boldsymbol{{\text{∇}}}} }_{{\theta }}{V}_{{\pi }_{{\theta }}}\left({\boldsymbol{s}}_{1}\right)=B\left(t\right){{\boldsymbol{{\text{∇}}}} }_{{\theta }}\mathrm{l}\mathrm{n}\pi \left(\left.\boldsymbol{a}\left(t\right)\right|\boldsymbol{s}\left(t\right),{\theta }\right)$

(30)

其中， $B\left(t\right)$ 称为优势函数，其指示特定动作带来的结果与结果平均值之间的差值。 ${{\text{∇}} }_{{\theta }}\mathrm{l}\mathrm{n}\pi \left(\left.\boldsymbol{a}\left(t\right)\right|\boldsymbol{s}\left(t\right),{\theta }\right)$ 称为资格迹。由于策略动作 $\boldsymbol{a}\left(t\right)$ 为离散向量，因此，行动者的神经网络可直接输出每个动作对应的概率 $\pi \left(\left.\boldsymbol{a}\left(t\right)\right|\boldsymbol{s}\left(t\right),{\theta }\right)$ 。得益于与神经网络的结合，A3C可采用参数集为 ${\theta }$ 的神经网络来学习 $\pi \left(\left.\boldsymbol{a}\left(t\right)\right|\boldsymbol{s}\left(t\right),{\theta }\right)$ 。相应的参数集 ${\theta }$ 则采用如式(30)的策略梯度上升法更新

${\theta }:={\theta }+gB\left(t\right){{\text{∇}} }_{{\theta }}\mathrm{l}\mathrm{n}\pi \left(\left.\boldsymbol{a}\left(t\right)\right|\boldsymbol{s}\left(t\right),{\theta }\right)$

(31)

其中， $g\ge 0$ 为行动者神经网络的学习率。

评价者：评价者采用优势函数 $B\left(t\right)$ 来评估行动者选择动作 $\boldsymbol{a}\left(t\right)$ 的优劣。优势函数 $B\left(t\right)$ 包含一个和状态 $\boldsymbol{s}\left(t\right)$ 有关的基线函数，而状态价值函数 ${V}_{\pi }\left(\boldsymbol{s}\left(t\right)\right)$ 是该基线函数的最佳选择。在实际的学习过程中，通常采用状态价值函数的估计值。因此，评价者的目标是使用另一个参数集为 ${{\theta }}_{\mathrm{c}}$ 的神经网络来近似估计状态价值函数 ${V}_{\pi }\left(\boldsymbol{s}\left(t\right)\right)\approx {\stackrel{～}{V}}_{\pi }\left(\boldsymbol{s}\left(t\right),{{\theta }}_{\mathrm{c}}\right)$ 。优势函数 $B\left(t\right)$ 可采用如式(32)公式计算

$\begin{split} B\left(t\right)=& r\left(\boldsymbol{s}\left(t\right),\boldsymbol{a}\left(t\right),\boldsymbol{s}\left(t+1\right)\right)+\gamma \tilde{V}\left(\boldsymbol{s}\left(t+1\right),{{\theta }}_{\rm{c}}\right)\\ & -\tilde{V}\left(\boldsymbol{s}\left(t\right),{{\theta }}_{\rm{c}}\right) \\[-10pt] \end{split}$

(32)

参数集 ${{\theta }}_{\mathrm{c}}$ 采用如式(33)的方式更新

${{\theta }}_{\mathrm{c}}:={{\theta }}_{\mathrm{c}}+{g}_{\mathrm{c}}B\left(t\right){{\boldsymbol{{\text{∇}}}} }_{{{\theta }}_{\mathrm{c}}}\tilde{V}\left(\boldsymbol{s}\left(t\right),{{\theta }}_{\rm{c}}\right)$

(33)

其中， ${g}_{\mathbf{c}}\ge 0$ 为评价者神经网络的学习率。在一个时隙中，行动者首先利用其神经网络输出当前时隙的策略 $\pi \left(\left.\boldsymbol{a}\left(t\right)\right|\boldsymbol{s}\left(t\right),{\theta }\right)$ ，根据该策略选择动作 $\boldsymbol{a}\left(t\right)$ 并执行，环境返回即时奖励函数值 $r\left(\boldsymbol{s}\left(t\right),\boldsymbol{a}\left(t\right), \boldsymbol{s}\left(t+1\right)\right)$ 给评价者。然后，评价者通过其神经网络计算估计状态价值函数 $\tilde{V}\left(\boldsymbol{s}\left(t\right),{{\theta }}_{\rm{c}}\right)$ 并基于此计算出优势函数 $B\left(t\right)$ 来评估当前时隙动作 $\boldsymbol{a}\left(t\right)$ 的优劣。随后，行动者和评价者分别对其神经网络求关于参数集的导数，并基于优势函数 $B\left(t\right)$ 来更新相应的参数集 ${\theta }$ 和 ${{\theta }}_{\mathrm{c}}$ 。

3.2 内层策略

当外层策略确定了信道在集群间的分配后，由于每个集群仅有一个直播终端，因此各个直播终端的信道配对情况已确定，内层策略需要做的则是决定集群内传感器与信道配对的情况。内层策略可通过设计组合调度策略来实现优化目标，该策略由分配空闲信道的每个集群的链路选择决策组成。在每个可调度的时隙 $t$ 中，内层策略需选择使 $\bar{\mathcal{H}}\left(t+1\right)- q\left(t\right){\bar{\varDelta }}_{\mathrm{b}}\left(t+1\right)$ 的期望值最大的调度决策组合。然而，由于数据包的传输时延可能不止1个时隙，即对于任意终端 $\left(n,m\right)$ 有 ${\nu }_{n,m}\left(t\right)\ge 1$ ，因此，调度决策的执行可能不会立即降低下一个时隙的AoI，直接最大化 $\bar{\mathcal{H}}\left(t+1\right)-q\left(t\right){\bar{\varDelta }}_{\mathrm{b}}\left(t+1\right)$ 的期望值不可行。注意到可以利用当前时隙 $t$ , ${\nu }_{n,m}\left(t\right)$ 和 ${\mu }_{n,m}\left(t\right)$ 计算自时隙 $t$ 开始完成上行传输所需的时隙数 ${\eta }_{n,m}\left(t\right)$ ，也就是离相应的AoI下次降低剩余的时隙数 ${\eta }_{n,m}\left(t\right)= {\nu }_{n,m}\left(t\right)-t+{\mu }_{n,m}\left(t\right)$ 。为实现本文的优化目标，可将预计降低的AoI设计为与 ${\eta }_{n,m}\left(t\right)$ 相关，假设传感器 $\left(n,m\right)\left(m\ne 1\right)$ 经过时隙 $t$ 的传输可将AoI在时隙 $t+1$ 降低 ${\alpha }_{n,m}\left(t\right)$ , ${\alpha }_{n,m}\left(t\right)$ 可采用如式(34)计算

${\alpha }_{n,m}\left(t\right)=\frac{{\varDelta }_{n,m}\left({\mu }_{n,m}\left(t\right)\right)}{{\eta }_{n,m}\left(t\right)}\sum\limits_{l=1}^{L}{\varphi }_{l,n,m}\left(t\right)$

(34)

其中， ${\varDelta }_{n,m}\left({\mu }_{n,m}\left(t\right)\right)$ 为对应数据包传输完成后预计可减少的AoI。需要注意的是，如果相应数据包在时隙 $t$ 没有完成上行传输，则在时隙 $t+1$ 基站处的AoI实际上并没有减少，因此， ${\alpha }_{n,m}\left(t\right)$ 可看作一个虚拟的AoI减少量。基站处的AoI则需在随后的时隙 $t+2$ 加上对应的偏置量 ${\delta }_{n,m}\left(t+1\right)= {\alpha }_{n,m}\left(t\right)$ 。如果相应数据包在时隙 $t$ 完成了上行传输，则 ${\alpha }_{n,m}\left(t\right)= {\varDelta }_{n,m}\left({\mu }_{n,m}\left(t\right)\right)$ 为时隙 $t+1$ 基站处实际的AoI减少量，偏置量为0。因此，偏置量可采用如式(35)计算

${\delta }_{n,m}\left(t+1\right)= \left\{\begin{aligned} & 0 ,\qquad\quad \displaystyle\sum\limits_{l=1}^{L}{\varphi }_{l,n,m}\left(t\right)=1,且t+1-{\mu }_{n,m}\left(t\right)={\nu }_{n,m}\left(t\right)\\ & {\alpha }_{n,m}\left(t\right),\displaystyle\sum\limits_{l=1}^{L}{\varphi }_{l,n,m}\left(t\right)=0,或t+1-{\mu }_{n,m}\left(t\right)\ne {\nu }_{n,m}\left(t\right)\end{aligned}\right.$

(35)

基于上述分析，可构造如式(36)的虚拟队列

${\xi }_{n,m}\left(t+1\right)={\varDelta }_{n,m}\left(t\right)+1-{\alpha }_{n,m}\left(t\right)+{\delta }_{n,m}\left(t\right)$

(36)

根据文献[]中的定理1，当 $t$ 趋于无穷时， $1 \Bigr/t \displaystyle\sum \nolimits_{\tau =1}^{t}{\varDelta }_{n,m}\left(\tau \right)$ 与 $1\Bigr/t\displaystyle\sum\nolimits_{\tau =1}^{t}{\xi }_{n,m}\left(\tau \right)$ 相等，即在任意可行的调度策略下，时间平均的虚拟队列长度等于时间平均的AoI。因此，可以使用 $\bar{\xi }\left(t\right)$ 代替式(17)中的 ${\bar{\varDelta }}_{\mathrm{b}}\left(t\right)$ ，其中， $\bar{\xi }\left(t\right)$ 可采用如式(37)计算

$\bar{\xi }\left(t\right)=\frac{1}{t}\sum\limits_{\tau =1}^{t}\mathrm{E}\left[\frac{1}{MN}\sum\limits_{n=1}^{N}\sum\limits_{m=2}^{M}{\xi }_{n,m}\left(\tau \right)\right]$

(37)

如果传感器 $\left(n,m\right)\left(m\ne 1\right)$ 在时隙 $t$ 占用无线信道进行上行传输，对于基站接收数据包的价值等级 ${\mathcal{F}}_{n,m}\left(t\right)$ ，其值在数据包传输过程中为0，仅在数据包传输完成的时隙 ${\mu }_{n,m}\left(t\right)+{\nu }_{n,m}\left(t\right)-1$ 中才为 ${f}_{n,m}\left(t\right)$ 。需要注意的是， ${f}_{n,m}\left(t\right)$ 在数据包传输过程中保持不变，因此，为了评估在相应调度时隙 ${\mu }_{n,m}\left(t\right)$ 中的调度策略，可构造一个等效变量从而在时隙 ${\mu }_{n,m}\left(t\right)+1$ 提前赋予其数据包的价值等级。该等效变量可采用如式(38)计算

${\lambda }_{n,m}\left(t+1\right)=\left\{\begin{aligned} & {f}_{n,m}\left(t\right),{\mu }_{n,m}\left(t\right)\ne {\mu }_{n,m}\left(t-1\right)\\ & 0,\qquad\quad {\mu }_{n,m}\left(t\right)={\mu }_{n,m}\left(t-1\right)\end{aligned}\right.$

(38)

可以看出，当 $t$ 趋于无穷时，如式(39)成立

$\begin{split} \bar{\lambda }\left(t\right)=& \underset{t\to \infty }{\mathrm{lim}}\frac{1}{t}\sum \limits_{\tau =1}^{t}\mathrm{E}\left[\frac{1}{MN}\sum\limits_{n=1}^{N}\sum\limits_{m=2}^{M}{\lambda }_{n,m}\left(\tau \right)\right]\\ =& \bar{\mathcal{H}}\left(t\right)-\underset{t\to \infty }{\mathrm{l}\mathrm{i}\mathrm{m}}\frac{1}{t}\sum\limits_{\tau =1}^{t}\mathrm{E}\left[\frac{1}{MN}\sum\limits_{n=1}^{N}{\mathcal{I}}_{n}\left(t\right)\right] \end{split}$

(39)

由于直播终端与内层策略无关，内层策略在每个时隙 $t$ 进行决策时需选择能够使 $\bar{\lambda }\left(t+1\right)-q\left(t\right)\cdot \bar{\xi }\left(t+1\right)$ 的值最大的策略组合。此外，由于各集群的链路选择决策相互独立，因此，对于任意集群 $n$ ，为了最大化 $\bar{\lambda }\left(t+1\right)-q\left(t\right)\bar{\xi }\left(t+1\right)$ ，内层策略可基于以下原则选择集群内的传感器 ${m}^{*}$ 与相应的空闲信道进行配对

$\begin{split} {m}^{*}=&\underset{m\in \left[2,M\right]}{\mathrm{arg}\mathrm{max}}\displaystyle\sum\limits_{f=1}^{F}{\beta }_{n,m}^{f}f\\ &+\frac{q\left(t\right){\varDelta }_{n,m}\left(t\right)}{\displaystyle\sum\limits _{j=1}^{Y}{\omega }_{n,m}^{{y}_{j}}⌈{y}_{j}/\left({R}_{l}b\right)⌉},\\ & \forall n\in \left\{\mathrm{1,2},\cdots ,N\right\} \end{split}$

(40)

基于以上对内外层策略的分析，每个集群的内层策略需嵌入到外层策略中，从而构成本文所提的双层调度(Two-layer Scheduling, TS)策略，描述了相应策略的具体步骤。相比直接使用A3C求解问题 ${\mathcal{P}}_{3}$ ，TS策略将神经网络对应的可行动作空间大小从 $\left(NM\right)!/\left(NM-L\right)!$ 减少到 $N!N!/ \left(2N-L\right)!$ ，从而使基于A3C的调度策略能够对问题 ${\mathcal{P}}_{3}$ 进行有效的求解。

算法1　求解问题 ${\mathcal{P}}_{3}$ 的TS策略
输入：全局神经网络参数集 ${\theta }$ 和 ${{\theta }}_{\mathrm{c}}$ ，全局计数器 $T=0$ ，线程独有神经网络参数集 ${{\theta }}^{'}$ 和 ${{\theta }}_{\mathrm{c}}^{'}$ ，线程独有计数器 $t=0,\tilde{T},{T}_{\mathrm{m}\mathrm{a}\mathrm{x}}$
输出：动作向量 $\boldsymbol{a}\left(t\right)$
Repeat：
重置全局神经网络参数集的梯度： $\mathrm{d}{\theta }=0$ ， $\mathrm{d}{{\theta }}_{\mathrm{c}}=0$ 。同步线程独有神经网络参数集： ${{\theta }}^{'}={\theta },{{\theta }}_{\mathrm{c}}^{'}={{\theta }}_{\mathrm{c}}$ 。获得当前时隙状态 ${\boldsymbol{s}}_{t}$ ， ${t}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}=t$
Repeat：
根据策略 $\pi \left(\left.\boldsymbol{a}\left(t\right)\right\|\boldsymbol{s}\left(t\right),{{\theta }}^{'}\right)$ 选择动作 $\boldsymbol{a}\left(t\right)$
For $n\in \left\{\mathrm{1,2},\cdots ,N\right\}$ do
For $l\in \left\{N+1,N+2, \cdots ,L\right\}$ do
If ${\varphi }_{n}^{\mathrm{s}}\left(t\right)=l$ Then
基于以下原则选择集群 $n$ 内的传感器 ${m}^{}$ 与信道 $l$ 进行配对　　　　　 ${m}^{}=\underset{m\in \left[2,M\right]}{\mathrm{arg}\mathrm{max} }\displaystyle\sum\limits_{f=1}^{F}{\beta }_{n,m}^{f}f+\frac{q\left(t\right){\varDelta }_{n,m}\left(t\right)}{\displaystyle\sum\limits _{j=1}^{Y}{\omega }_{n,m}^{ {y}_{j} }\left\lceil { {y}_{j}/\left({R}_{l}b\right)} \right\rceil }$
End If
End For
End For
执行动作 $\boldsymbol{a}\left(t\right)$ 与上述集群内链路选择决策
获得更新后的状态 $\boldsymbol{s}\left(t+1\right)$ 以及即时奖励函数 $r\left(\boldsymbol{s}\left(t\right),\boldsymbol{a}\left(t\right),\boldsymbol{s}\left(t+1\right)\right)$
$t:=t+1,T:=T+1$
Until $t=={t}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}+\tilde{T}$
$G=V\left(\boldsymbol{s}\left(t\right),{{\theta }}_{\mathrm{c}}^{'}\right)$
For $h\in \left\{t-1,t-2,\cdots ,{t}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}\right\}$ do
$G:=r\left(\boldsymbol{s}\left(h\right),\boldsymbol{a}\left(h\right),\boldsymbol{s}\left(h+1\right)\right)+\gamma G$
累加线程独有的神经网络梯度：
$\mathrm{d}{{\theta } }_{\rm{c} }:=\mathrm{d}{{\theta } }_{\rm{c} }+\partial {\left(G-V\left(\boldsymbol{s}\left(h\right),{{\theta } }_{\rm{c} }^{'}\right)\right)}^{2}/\partial {{\theta } }_{\rm{c} }^{'}$
$\mathrm{d}{\theta }:=\mathrm{d}{\theta }+{ {\boldsymbol{ {\text{∇} } } } }_{ {{\theta } }^{'} }\mathrm{l}\mathrm{n}\pi \left(\left.\boldsymbol{a}\left(h\right)\right\|\boldsymbol{s}\left(h\right),{{\theta } }^{'}\right)\left(G-V\left(\boldsymbol{s}\left(h\right),{{\theta } }_{\rm{c} }^{'}\right)\right)$
End For
利用累积梯度 $\mathrm{d}{\theta }$ 和 $\mathrm{d}{{\theta } }_{\rm{c} }$ 异步更新全局神经网络参数集 ${\theta }$ 和 ${{\theta } }_{\rm{c} }$
Until $T > {T}_{\mathrm{m}\mathrm{a}\mathrm{x}}$

下载: 导出CSV

| 显示表格

4. 仿真结果

仿真设定 $z=0.5\;\mathrm{s},$ ，视频码率集合 $\mathbb{X}=\left\{\mathrm{2,4}, \mathrm{6,8}\right\}\;\mathrm{M}\mathrm{b}\mathrm{p}\mathrm{s}$ ，速率集合 $\mathbb{R}=\left\{\mathrm{250,300,350,400}\right\}\;\mathrm{M}\mathrm{b}\mathrm{p}\mathrm{s}$ ，环境数据包大小集合 $\mathbb{Y}=\left\{0.125,0.25,0.375, 0.5\right\}\;\mathrm{M}\mathrm{B}$ 。环境数据价值等级数 $F=4$ ，集群数量 $N=4$ 、信道数量 $L=6$ ，单位时隙时长 $b=1\;\mathrm{m}\mathrm{s}$ ，概率值 ${p}_{n}^{{x}_{i}}, {\omega }_{n,m}^{{y}_{j}}$ 和 ${\beta }_{n,m}^{f}$ 则通过随机函数生成。对于A3C智能体，行动者和评价者的神经网络均为具有3个隐藏层且每个隐藏层神经元数量为128的全连接神经网络，神经网络的学习率均为 $0.000\;1$ ，最大的训练回合数以及单位训练回合包含的时隙数分别为 ${T}_{\mathrm{m}\mathrm{a}\mathrm{x}}=6\;000$ 和 $\tilde{T}=30$ 。仿真主要将本文的TS策略与其他3种策略进行比较，贪心(Greedy)策略在每个时隙优先调度 ${\varDelta }_{n,m}\left(t\right)$ 最大的终端。最大比率(Max-Ratio, MR)策略^[5]则考虑了上行传输时延，在每个时隙优先调度 ${\chi }_{n}\left(t\right)$ 和 ${\psi }_{n,m}\left(t\right)$ 中值最大的终端，其中， ${\chi }_{n}\left(t\right)$ 和 ${\psi }_{n,m}\left(t\right)$ 的计算采用如式(41)和式(42)

${\chi }_{n}\left(t\right)=\frac{{\varDelta }_{n,1}\left(t\right)}{\displaystyle\sum\limits _{i=1}^{I}{p}_{n}^{{x}_{i}}\left\lceil {{zx}_{i}/\left({R}_{l}b\right)} \right\rceil }$

(41)

${\psi }_{n,m}\left(t\right)=\frac{{\varDelta }_{n,m}\left(t\right)}{\displaystyle\sum\limits _{j=1}^{Y}{\omega }_{n,m}^{{y}_{j}}\left\lceil {{y}_{j}/\left({R}_{l}b\right)} \right\rceil }$

(42)

基于数据价值的最大比率(Max-Ratio with Data Value, MRDV)策略则在MR策略的基础上进一步考虑了数据价值，在每个时隙优先调度 ${\chi }_{n}\left(t\right) \displaystyle\sum\nolimits_{i=1}^{I}{p}_{n}^{{x}_{i}}i$ 和 ${\psi }_{n,m}\left(t\right)\displaystyle\sum\nolimits _{f=1}^{F}{\beta }_{n,m}^{f}f$ 中值最大的终端。给出了4种策略下时间平均RDVA分别随单位集群内终端数量 $M$ 变化的结果。如所示，本文的TS策略在时间平均的RDVA性能上优于其他3种策略，主要有两个方面的原因，一方面，TS策略直接优化时间平均的RDVA，因此，相比只考虑了AoI的贪心策略和MR策略其得到的RDVA值更优；另一方面，虽然MRDV策略联合考虑了数据价值和AoI，然而其没有考虑到AoI的动态变化特性，因此，其在时间平均的RDVA性能方面不如基于A3C的TS策略。另外，可以看到RDVA的值随着单位集群内终端数量 $M$ 的增加而减少，这是由于 $M$ 的增加对应于单位集群中传感器数量的增加，而传感器数量的增加会减少每个传感器得到调度进行上行传输的机会。

图 1 单位集群内终端数量对时间平均RDVA的影响

下载: 全尺寸图片幻灯片

对于数据价值和AoI的性能曲线，和给出相应性能随单位集群内终端数量 $M$ 变化的结果。给出了时间平均的数据价值随 $M$ 变化的结果。如所示，由于贪心策略和MR策略没有考虑系统的数据价值，因此其在数据价值方面类似于随机决策，所得到的时间平均数据价值在4种策略中也是最低的。对于MRDV策略，虽然其考虑了数据价值，然而AoI的动态变化会影响相应的调度决策从而影响接收数据价值的动态变化，因此，相比TS策略，MRDV策略则由于未考虑这种动态变化带来的影响而得到了较低的时间平均数据价值。另一方面，给出了时间平均AoI随单位集群内终端数量 $M$ 变化的结果。可以看出，4种策略中TS策略能达到最优的时间平均AoI。贪心策略虽然考虑了预计数据传输完成能够减少的AoI，但忽略了数据本身传输时延对AoI的影响，因此，其在AoI方面的性能最低。MR策略和MRDV策略则是由于没有考虑AoI动态变化的影响，因此，其得到的时间平均AoI性能低于基于深度强化学习的TS策略。

图 2 单位集群内终端数量对时间平均数据价值的影响

下载: 全尺寸图片幻灯片

图 3 单位集群内终端数量对时间平均AoI的影响

下载: 全尺寸图片幻灯片

5. 结论

针对视频直播较少考虑AoI以及AoI的研究中数据价值考虑不足的问题，本文基于直播终端和无线传感器共同部署的视频直播系统研究了数据价值和AoI的联合优化问题。考虑到AoI的动态变化特性以及问题的有效求解，提出了一种基于A3C的双层调度策略，仿真结果表明，与其他策略相比，本文提出的调度策略可以降低时间平均的AoI并提高时间平均的接收数据价值。

图 1 单位集群内终端数量对时间平均RDVA的影响

下载: 全尺寸图片幻灯片

图 2 单位集群内终端数量对时间平均数据价值的影响

下载: 全尺寸图片幻灯片

图 3 单位集群内终端数量对时间平均AoI的影响

下载: 全尺寸图片幻灯片

算法1　求解问题 ${\mathcal{P}}_{3}$ 的TS策略
输入：全局神经网络参数集 ${\theta }$ 和 ${{\theta }}_{\mathrm{c}}$ ，全局计数器 $T=0$ ，线程独有神经网络参数集 ${{\theta }}^{'}$ 和 ${{\theta }}_{\mathrm{c}}^{'}$ ，线程独有计数器 $t=0,\tilde{T},{T}_{\mathrm{m}\mathrm{a}\mathrm{x}}$
输出：动作向量 $\boldsymbol{a}\left(t\right)$
Repeat：
重置全局神经网络参数集的梯度： $\mathrm{d}{\theta }=0$ ， $\mathrm{d}{{\theta }}_{\mathrm{c}}=0$ 。同步线程独有神经网络参数集： ${{\theta }}^{'}={\theta },{{\theta }}_{\mathrm{c}}^{'}={{\theta }}_{\mathrm{c}}$ 。获得当前时隙状态 ${\boldsymbol{s}}_{t}$ ， ${t}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}=t$
Repeat：
根据策略 $\pi \left(\left.\boldsymbol{a}\left(t\right)\right\|\boldsymbol{s}\left(t\right),{{\theta }}^{'}\right)$ 选择动作 $\boldsymbol{a}\left(t\right)$
For $n\in \left\{\mathrm{1,2},\cdots ,N\right\}$ do
For $l\in \left\{N+1,N+2, \cdots ,L\right\}$ do
If ${\varphi }_{n}^{\mathrm{s}}\left(t\right)=l$ Then
基于以下原则选择集群 $n$ 内的传感器 ${m}^{}$ 与信道 $l$ 进行配对　　　　　 ${m}^{}=\underset{m\in \left[2,M\right]}{\mathrm{arg}\mathrm{max} }\displaystyle\sum\limits_{f=1}^{F}{\beta }_{n,m}^{f}f+\frac{q\left(t\right){\varDelta }_{n,m}\left(t\right)}{\displaystyle\sum\limits _{j=1}^{Y}{\omega }_{n,m}^{ {y}_{j} }\left\lceil { {y}_{j}/\left({R}_{l}b\right)} \right\rceil }$
End If
End For
End For
执行动作 $\boldsymbol{a}\left(t\right)$ 与上述集群内链路选择决策
获得更新后的状态 $\boldsymbol{s}\left(t+1\right)$ 以及即时奖励函数 $r\left(\boldsymbol{s}\left(t\right),\boldsymbol{a}\left(t\right),\boldsymbol{s}\left(t+1\right)\right)$
$t:=t+1,T:=T+1$
Until $t=={t}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}+\tilde{T}$
$G=V\left(\boldsymbol{s}\left(t\right),{{\theta }}_{\mathrm{c}}^{'}\right)$
For $h\in \left\{t-1,t-2,\cdots ,{t}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}\right\}$ do
$G:=r\left(\boldsymbol{s}\left(h\right),\boldsymbol{a}\left(h\right),\boldsymbol{s}\left(h+1\right)\right)+\gamma G$
累加线程独有的神经网络梯度：
$\mathrm{d}{{\theta } }_{\rm{c} }:=\mathrm{d}{{\theta } }_{\rm{c} }+\partial {\left(G-V\left(\boldsymbol{s}\left(h\right),{{\theta } }_{\rm{c} }^{'}\right)\right)}^{2}/\partial {{\theta } }_{\rm{c} }^{'}$
$\mathrm{d}{\theta }:=\mathrm{d}{\theta }+{ {\boldsymbol{ {\text{∇} } } } }_{ {{\theta } }^{'} }\mathrm{l}\mathrm{n}\pi \left(\left.\boldsymbol{a}\left(h\right)\right\|\boldsymbol{s}\left(h\right),{{\theta } }^{'}\right)\left(G-V\left(\boldsymbol{s}\left(h\right),{{\theta } }_{\rm{c} }^{'}\right)\right)$
End For
利用累积梯度 $\mathrm{d}{\theta }$ 和 $\mathrm{d}{{\theta } }_{\rm{c} }$ 异步更新全局神经网络参数集 ${\theta }$ 和 ${{\theta } }_{\rm{c} }$
Until $T > {T}_{\mathrm{m}\mathrm{a}\mathrm{x}}$

下载: 导出CSV

参考文献(15)

[1]	KAUL S, YATES R, and GRUTESER M. Real-time status: How often should one update?[C]. Proceedings of the IEEE INFOCOM, Orlando, USA, 2012: 2731–2735.
[2]	ZHANG Shuhang, ZHANG Hongliang, HAN Zhu, et al. Age of information in a cellular Internet of UAVs: Sensing and communication trade-off design[J]. IEEE Transactions on Wireless Communications, 2020, 19(10): 6578–6592. doi: 10.1109/TWC.2020.3004162
[3]	HU Huimin, XIONG Ke, QU Gang, et al. AoI-minimal trajectory planning and data collection in UAV-assisted wireless powered IoT networks[J]. IEEE Internet of Things Journal, 2021, 8(2): 1211–1223. doi: 10.1109/JIOT.2020.3012835
[4]	TANG Haoyue, WANG Jintao, SONG Linqi, et al. Minimizing age of information with power constraints: Multi-user opportunistic scheduling in multi-state time-varying channels[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(5): 854–868. doi: 10.1109/JSAC.2020.2980911
[5]	XIE Xin, WANG Heng, YU Lei, et al. Online algorithms for optimizing age of information in the IoT systems with multi-slot status delivery[J]. IEEE Wireless Communications Letters, 2021, 10(5): 971–975. doi: 10.1109/LWC.2021.3052569
[6]	UITTO M and HEIKKINEN A. Evaluating 5G uplink performance in low latency video streaming[C]. Joint European Conference on Networks and Communications & 6G Summit (EuCNC/6G Summit), Grenoble, France, 2022: 393–398.
[7]	ZHANG Zhilong, ZENG Minyin, CHEN Mingzhe et al. Joint user grouping, version selection, and bandwidth allocation for live video multicasting[J]. IEEE Transactions on Communications, 2022, 70(1): 350–365. doi: 10.1109/TCOMM.2021.3115480
[8]	LIU Junquan, ZHANG Weizhan, HUANG Shouqin, et al. QoE-driven HAS live video channel placement in the media cloud[J]. IEEE Transactions on Multimedia, 2021, 23: 1530–1541. doi: 10.1109/TMM.2020.2999176
[9]	WEI Bo, SONG Hang, and KATTO J. High-QoE DASH live streaming using reinforcement learning[C]. IEEE/ACM 29th International Symposium on Quality of Service (IWQOS), Tokyo, Japan, 2021: 1–2.
[10]	MA Xiaoteng, LI Qing, ZOU Longhao, et al. QAVA: QoE-aware adaptive video bitrate aggregation for HTTP live streaming based on smart edge computing[J]. IEEE Transactions on Broadcasting, 2022, 68(3): 661–676.
[11]	LIU Dongzhu, ZHU Guangxu, ZENG Qunsong, et al. Wireless data acquisition for edge learning: Data-importance aware retransmission[J]. IEEE Transactions on Wireless Communications, 2021, 20(1): 406–420. doi: 10.1109/TWC.2020.3024980
[12]	LIU Dongzhu, ZHU Guangxu, ZHANG Jun, et al. Data-importance aware user scheduling for communication-efficient edge machine learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2021, 7(1): 265–278. doi: 10.1109/TCCN.2020.2999606
[13]	YATES R D. Lazy is timely: Status updates by an energy harvesting source[C]. IEEE International Symposium on Information Theory (ISIT), Hong Kong, China, 2015: 3008–3012.
[14]	ZHOU Zhenyu, YU Haijun, MUMTAZ S, et al. Power control optimization for large-scale multi-antenna systems[J]. IEEE Transactions on Wireless Communications, 2020, 19(11): 7339–7352. doi: 10.1109/TWC.2020.3010701
[15]	DU Jianbo, CHENG Wenjie, LU Guangyue, et al. Resource pricing and allocation in MEC enabled blockchain systems: An A3C deep reinforcement learning approach[J]. IEEE Transactions on Network Science and Engineering, 2022, 9(1): 33–44. doi: 10.1109/TNSE.2021.3068340

施引文献

资源附件(0)

访问统计

图(3) / 表(1)

计量

文章访问数: 474
HTML全文浏览量: 163
PDF下载量: 62
被引次数: 0

1. 引言
2. 系统模型和问题
2.1 信息年龄
2.2 数据价值
2.3 问题建模
3. 调度策略
3.1 外层策略
3.2 内层策略
4. 仿真结果
5. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

混合数据的多集群系统中数据价值与信息年龄的联合优化

doi: 10.11999/JEIT230023

通讯作者:
罗佳　luojia@cqupt.edu.cn

计量

Joint Optimization of Data Value and Age of Information in Multi-cluster System with Mixed Data

1. 引言

2. 系统模型和问题

2.1 信息年龄

2.2 数据价值

2.3 问题建模

3. 调度策略

3.1 外层策略

3.2 内层策略

4. 仿真结果

5. 结论

计量

目录

1. 引言

2. 系统模型和问题

2.1 信息年龄

2.2 数据价值

2.3 问题建模

3. 调度策略

3.1 外层策略

3.2 内层策略

4. 仿真结果

5. 结论

留言板

混合数据的多集群系统中数据价值与信息年龄的联合优化

doi: 10.11999/JEIT230023

通讯作者: 罗佳 luojia@cqupt.edu.cn

计量

出版历程

Joint Optimization of Data Value and Age of Information in Multi-cluster System with Mixed Data

1. 引言

2. 系统模型和问题

2.1 信息年龄

2.2 数据价值

2.3 问题建模

3. 调度策略

3.1 外层策略

3.2 内层策略

4. 仿真结果

5. 结论

计量

出版历程

目录

1. 引言

2. 系统模型和问题

2.1 信息年龄

2.2 数据价值

2.3 问题建模

3. 调度策略

3.1 外层策略

3.2 内层策略

4. 仿真结果

5. 结论

通讯作者:
罗佳　luojia@cqupt.edu.cn