Resource Management Based on Deep Reinforcement Learning for UAV Communication Considering Power-Consumption Outage
-
摘要: 最新研究表明,高速传输导致的手机温度变化会影响相应的传输性能。针对高速传输下未考虑与手机温度有关的能耗中断而导致传输性能降低的问题,该文提出一种基于深度强化学习的资源管理方案去考虑无人机(UAV)通信场景下的能耗中断。首先,给出无人机通信的网络模型与智能手机热传递模型的分析;其次,将能耗中断的影响以约束条件的形式整合到无人机场景的优化问题中,并通过联合考虑带宽分配、功率分配和轨迹设计优化系统吞吐量;最后,采用马尔可夫决策过程描述相应的优化问题并通过名为归一化优势函数的深度强化学习算法求解。仿真表明,所提方案能有效提升系统吞吐量并得到合理的无人机飞行轨迹。Abstract: Recent research has demonstrated that the temperature variation of smartphone caused by high data rate transmission could affect the corresponding performance on transmission. Considering the problem of performance degradation on transmission caused by the ignorance of the power-consumption outage which is related with the temperature of smartphone, a deep reinforcement learning based resource management scheme is proposed to consider the power-consumption outage for Unmanned Aerial Vehicle (UAV) communication scenario. Firstly, the analysis for the network model of UAV communication and heat transfer model in smartphone is established. Then, the influence of power-consumption outage is integrated into the optimization problem of UAV scenario in the form of constraint, and the system throughput is optimized via the joint consideration of bandwidth allocation, power allocation and trajectory design. Finally, Markov decision process is adopted to depict the problem and the optimization target is achieved by a deep reinforcement learning algorithm named normalized advantage function. Simulation results manifest that the proposed scheme can effectively enhance the system throughput and achieve appropriate trajectory of UAV.
-
1. 引言
在实际决策中,如何处理代价敏感问题一直是研究的热点之一。代价通常分为决策代价(误分类代价和延迟代价)和测试代价(测试成本)。一般地,决策代价随着信息逐步增加而降低,而测试代价随着信息增加而增加,两者呈负相关关系且量纲不同。例如,在医疗诊断中,若患者偏好高精度的诊断,会选择成本较高的检查项目;相反,若患者偏好普通的诊断,往往会选择成本低的检查项目。这两种情况都广泛发生在实际应用中,因此如何实现代价最小的决策是值得研究的。
现阶段许多专家学者将代价敏感研究运用于机器学习理论中,并取得了重要的研究成果[1,2]。目前,代价敏感方面的研究方法主要分为以下3个方面:从决策代价敏感的角度来看,Li等人[3]结合序贯三支决策提出了一种最小化代价的决策模型;Zhang等人[4]基于邻域覆盖方法,根据损失函数改变覆盖半径,来减小分类损失;Jia等人[5]通过定义一种新的属性约简方法使模型的决策代价最小。同时,在降低测试代价方面,Yang等人[6]提出了一种测试代价最优的粒度结构选择回溯算法。Min等人[7]在测试代价中引入代价敏感决策系统的层次结构。另外,在同时考虑决策代价和测试代价的研究中,广大学者也进行了相应的工作[8,9]。
序贯三支决策[10]是近年发展起来的一种处理不确定性决策的方法。作为粒计算[11-13]概念下的具体模型,其目标是提供一种灵活的机制和方法,帮助用户在信息粒化过程中做出合适的决策。目前在图像分析、属性约简、语音识别等方面均已取得了较大的成果[14-17]。代价敏感的序贯三支决策从粒计算的角度提高了三支决策的有效性,实现了粗粒度到细粒度渐进式的决策过程。但在最优粒度选择方面,仍存在一些问题需要改进。首先,在构建多粒度空间过程中,从属性重要度选择方法上来看,存在没有充分考虑数据中有冗余属性或不相关属性的问题,这样可能会增加额外的测试代价或有损模型的性能。其次,随着获取信息的增多,针对两类错误分类和两类不确定性分类[18]的代价参数是保持不变的,使得代价参数在序贯三支决策渐进计算过程中缺乏一定的自适应性,导致在粗粒层产生较低的分类精度,从而影响模型的最优粒度选择。此外,在现有计算总代价的方法中,未能考虑测试代价与决策代价测量尺度或量纲不统一所带来的影响,从而丢失部分关键因素,导致直接进行计算得到的结果不准确。针对这些问题,本文首先利用卡方检验剔除高相关性的条件属性,再借助信息增益计算属性重要度并根据得到的属性重要度序列进行多粒度空间的构建。其次,针对两类错误分类和两类不确定性分类[18]的代价参数缺乏自适应性,结合渐进计算的思想,借助惩罚函数来对代价参数设置相应的惩罚规则,有效提升了模型的分类精度。最后,利用变异系数构建了一种合理的代价结构,实现了同量纲下的代价计算,从而可以有效利用测试代价和决策代价的信息。实验表明所提出的模型在不同的代价场景下能够产生合理的多粒度空间结构,同时所得到的代价最小的粒度空间也更符合实际应用场景代价最小的需求。
2. 基础知识
定义1[19,20] 给定决策信息系统
S=(U,C∪D, V,f) ,其中U 表示非空有限论域;C 和D 分别表示条件属性集和决策属性集,且C∩D=∅ ;V 表示属性值的集合;f:U×C→V 表示一个信息函数,用于指定U 中每一个对象x 的属性值。定义2[19,20] 给定决策信息系统
S=(U,C∪D, V,f) ,对于任意属性子集A⊆C ,等价关系EA 定义为EA={(x,y)∈U×U|∀a∈A,a(x)=a(y)}。 (1) 等价关系可形成论域
U 上的一个划分,记为U/EA ,简记为U/A 。给定对象x∈U ,[x]EA 表示在属性子集A 所形成的等价关系下的等价类,简记为[x]A 或[x] 。相比于二支决策,三支决策理论的关键在于引入了延迟决策,即当决策对象的信息不足时采用延迟决策,等待收集更多有用信息后再重新进行决策。这种对决策对象的认识从粗粒度向细粒度转化,使边界域中的对象逐渐被正确决策,进而形成一种序贯决策方法。下面介绍序贯三支决策的一些基本概念。
定义3[10] 给定决策信息系统
S=(U,C∪D, V,f) ,假定A1,A2,⋯,An 表示一组条件属性集,且满足A1⊂A2⊂⋯⊂An⊆C 。对于∀x∈U ,有EAn⊂⋯⊆EA2⊆EA1 (2) [x]An⊆⋯⊆[x]A2⊆[x]A1 (3) 定义4[10] 给定决策信息系统
S=(U,C∪D, V,f) ,设A1,A2,⋯,An 表示一组条件属性集,且满足A1⊂A2⊂⋯⊂An⊆C 。在这种条件属性集的序贯情形下多粒度空间记为GS ,在第i(i=1,2,⋯,n) 层,GS 的粒度结构记为GLi ,,GLi 和GS 定义为GLi=(Ui,Ai∪D,Vi,fi) (4) GS=(GL1,GL2,⋯,GLn) (5) 在多粒度空间中,给定第
i 层的阈值(αi,βi) ,则第i 层的接受域、延迟域和拒绝域可以表示为POS(αi,βi)(Xi)={x∈Ui|Pr(Xi|[x]Ai)≥αi} (6) BND(αi,βi)(Xi)={x∈Ui|βi<Pr(Xi|[x]Ai)<αi} (7) NEG(αi,βi)(Xi)={x∈Ui|Pr(Xi|[x]Ai)≤βi} (8) 其中,
Ui 表示第i 层的论域,Xi(Xi⊆Ui) 表示第i 层的目标概念。经过
GS 的第i 层决策后,得到边界域BND(αi,βi)(Xi) ,对于BND(αi,βi)(Xi) 中的对象,在第i+1 层重新进行决策,因此Ui+1=BND(αi,βi) (Xi) ,满足Un⊂⋯⊂U2⊂U1 且U1=U 。此外,第i+1 层的目标概念Xi+1=Xi∩BND(αi,βi)(Xi) ,满足Xn⊂⋯⊂X2⊂X1 且X1=X 。粗糙集理论为序贯三支决策奠定了理论基础,从多粒度的角度来看,随着属性的增加,等价类会被进一步的细分。依据条件属性集构建的多粒度空间可以用树形结构来表示,最顶层表示论域的信息,即最粗粒层,随着属性的逐步加入,信息粒度逐步变细。因此,序贯三支决策的决策过程能够构成一个多粒度空间。图1简要介绍了多粒度的构造过程示意图。
3. 代价敏感的序贯三支决策最优粒度选择模型
3.1 基于信息增益和卡方检验的属性重要度选择方法
多粒度空间的构建与属性重要度的选择是紧密相连的,如果充分考虑条件属性内在的关系和条件属性与决策属性之间的关系来进行属性重要度选择,所得到的多粒度空间往往会更优。因为数据集中有些条件属性是冗余甚至是不相关的。冗余属性的存在会增加额外的测试代价,而不相关的属性会有损模型的性能。因此,对条件属性进行相关性分析是有必要的,从而使模型泛化能力更强。
卡方检验是一种用途很广的计数资料的假设检验方法,属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联程度。其主要思想在于比较理论频数和实际频数的吻合程度或者拟合优度,用来描述两个事件的独立性。卡方值
χ2 越大,说明两个事件的相互独立性越弱。定义5(卡方分布[21]) 设
s 个相互独立的随机变量Y1,Y2,⋯,Ys ,且符合标准正态分布N(0,1) ,则这s 个随机变量的平方和Q=∑si=1Y2i 为服从自由度为s 的卡方分布,记为Q∼χ2(s) 。定义6(卡方检验[21]) 给定数据的实际值
A 和理论值T ,则卡方检验的公式为χ2=∑(A−T)2T (9) 理论上,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值为0,表明理论值与数据的实际值完全符合。因此,通过卡方检验可以更好地剔除条件属性集中的冗余属性,减小测试代价。
同时,多粒度空间的构建与条件属性的划分能力是紧密相连的,如果充分考虑条件属性的划分能力来进行论域的划分,所得到的多粒度空间往往会更优。目前,属性重要度选择的方法大多基于熵。熵是用来描述论域中不确定性的一种度量方法。熵越大,论域的不确定性就越大。因此可以使用信息增益(论域集合划分前后熵的差值)来衡量使用当前属性对于论域划分效果的好坏。
定义7(信息增益[22,23]) 给定决策信息系统
S=(U,C∪D,V,f) ,B⊆C 。假设论域U 在等价关系EB 和ED 下的划分分别为U/UB={B1,B2,⋯,Bm}B={B1,B2,⋯,Bm} 和U/UD={D1,D2,⋯,Dp}D={D1,D2,⋯,Dp} ,信息增益Gain(D,B) 可定义为Gain(D,B)=H(D)−H(D|B) (10) 其中,
H(D)=−∑pi=1|Di||U|log2|Di||U| ,H(D|B)= −∑mi=1P(Bi)∑pj=1P(Dj|Bi)log2P(Dj|Bi) 。基于信息增益的属性重要度做出选择的规则是:对于待划分的论域,在划分前的熵是一定的,而划分后的熵是不定的,且划分后的熵越小说明使用此属性划分所得到的子集的不确定性越小,即纯度越高,因此划分前后熵值差异越大,说明使用当前属性划分论域,其不确定性越小。以信息增益作为划分论域的属性选择的标准,在属性选择上更倾向于选择取值较多的属性,这样在多粒度空间构建的过程中粒度空间往往能够朝着最快到达最细粒度空间的方向发展,因此可以选择使得信息增益最大的属性来划分当前论域。
3.2 惩罚规则下代价参数和阈值的变化规律
因为基于决策粗糙集的三支决策存在一定的容错能力,所以3个域中都可能存在不确定性进而产生相应的代价。在序贯三支决策中,随着属性的增加,等价类被进一步细分,信息粒度逐步变细,对象之间的区分也越明显,边界域中的对象可能会被重新分类,分类精度会进一步的提升,所以针对错误分类和不确定性分类应该给予更高的代价惩罚。本文借助文献[24]中的思想,考虑损失函数在随着粒度变化的情况下,利用惩罚函数对其进行相应的修改。因为在实际应用中,通常可以通过加大惩罚力度的方式来获取“优秀”的目标对象。同时,惩罚力度会随着惩罚次数的增加而增加,因此,惩罚函数必定是一个单调递增函数。进一步地,在序贯三支决策中,通过惩罚规则对代价参数进行修改,进而调整决策阈值(即
α 值的增大或β 值的减小),这样可以使等价类得到更准确的分类。同时,代价参数的值增大,即错分代价和延迟代价也会增高。所以,通过引入惩罚规则,利用代价参数值的增大进而提高决策精度。考虑到采取不同行动会产生不同的损失,记
λkBP 和λkNP 表示在第k 层,x 属于X 时采取行动aB 和aN 下的损失;相似地,记λkPN 和λkBN 表示在第k 层,x 不属于X 时采取行动aP 和aB 下的损失;另外,代价参数λPP 和λNN 表示正确划分下的代价,不产生代价损失。代价参数矩阵可以描述为表1。表 1 代价参数矩阵X ¬X aP 0 λkPN aB λkBP λkBN aN λkNP 0 代价参数
λkσ ,σ={NP,BP,PN,BN} 可以表示为λkσ=λk−1σ+ϕ(λk−1σ) ,其中ϕ(x) 是单调递增的凹函数,粒度越细(即k 越大),ϕ(x) 的值越大。因此,根据上述规律,可以得到λkσ 与λ1σ 的关系λkσ=λk−1σ+ϕ(λk−1σ)λk−1σ=λk−2σ+ϕ(λk−2σ)⋯λ2σ=λ1σ+ϕ(λ1σ)} (11) 将式(11)进行累加,可以得到:
λkσ=λ1σ+ ∑k−1i=1ϕ(λiσ) 。因此,
λkσ 可以表示为λkσ={λ1σ,k=1λ1σ+k−1∑i=1ϕ(λiσ),k>1 (12) 根据贝叶斯决策理论,将属于目标集合的对象分类到接受域的代价要小于等于将其分类到延迟域和拒绝域中的代价。相似地,将不属于目标集合的对象分类到拒绝域的代价要小于等于将其分类到延迟域和接受域中的代价。基于这两种规则,可以得到代价参数之间存在以下规律,
λkNP>λkBP≥λkPP ,λkPN>λkBN≥λkNN 。因此决策阈值可以表示为α=(λkPN−λkBN)(λkPN−λkBN)+(λkBP−λkPP) (13) γ=(λkPN−λkNN)(λkPN−λkNN)+(λkNP−λkPP) (14) β=(λkBN−λkNN)(λkBN−λkNN)+(λkNP−λkBP)。 (15) 一般地,随着属性的增加,粒度变细,形成的等价类将发生变化,代价参数值增大,阈值也会相应地发生改变。
定理1 在多粒度空间中,任意相邻两个粒层
GLk+1 和GLk 上的代价参数分别为λk+1σ 和λkσ ,且λk+1σ=λkσ+ϕ(λkσ) 。相邻两个粒层GLk+1 和GLk 之间的阈值(αk+1,βk+1) 和(αk,βk) 存在以下4种关系:(1)如果满足
λkPN−λkBN>λkBP 和λkBN>λkNP− λkBP ,则阈值αk+1>αk ,βk+1>βk 。(2)如果满足
λkPN−λkBN>λkBP 和λkBN<λkNP− λkBP ,则阈值αk+1>αk ,βk+1<βk 。(3)如果满足
λkPN−λkBN<λkBP 和λkBN>λkNP− λkBP ,则阈值αk+1<αk ,βk+1>βk 。(4)如果满足
λkPN−λkBN<λkBP 和λkBN<λkNP− λkBP ,则阈值αk+1<αk ,βk+1<βk 。因上述4种情形证明过程类似,故本文仅证明情形(1)。
证明 对于相邻两个粒层的阈值
αk= λkPN−λkBNλkPN−λkBN+λkBP 和αk+1=λk+1PN−λk+1BNλk+1PN−λk+1BN+λk+1BP ,αk+1−αk=λkBP(λk+1PN−λk+1BN)−λk+1BP(λkPN−λkBN)(λkPN−λkBN+λkBP)(λk+1PN−λk+1BN+λk+1BP) 。因为λkPN−λkBN>λkBP ,所以λk+1PN−λk+1BNλkPN−λkBN>λk+1BPλkBP ,则αk+1>αk 。对于相邻两个粒层的阈值
βk=λkBNλkBN+λkNP−λkBP 和βk+1=λk+1BNλk+1BN+λk+1NP−λk+1BP ,βk+1−βk= λk+1BN(λkNP−λkBP)−λkBN(λk+1NP−λk+1BP)(λkBN+λkNP−λkBP)(λk+1PN−λk+1BN+λk+1BP) 。因为λkBN>λkNP−λkBP ,所以λk+1NP−λk+1BPλkNP−λkBP>λk+1BNλkBN ,则βk+1>βk 。证毕定理2 在多粒度空间中,任意相邻两个粒层
GLk+1 和GLk 上的代价参数分别为λk+1σ 和λkσ ,且λk+1σ=λkσ+ϕ(λkσ) 。如果满足λkPN−λkBN=λkBP 和λkBN=λkNP−λkBP ,则阈值αk+1=αk ,βk+1=βk 。定理1与定理2同理可证。
因此,通过引入惩罚函数来处理实际决策过程中的代价参数变化,使得多粒度空间具有更好的适应性,能够动态地进行决策。
3.3 序贯三支决策模型的代价结构设计
在序贯三支决策中主要存在两种代价,第1种是因对象误分类或者需要延迟决策而产生的决策代价,第2种是因获得新的属性而产生的测试代价,即获取某些属性值的成本。在实际应用场景中,这两种代价都应该被考虑。因此,如何合理地结合决策代价和测试代价来解决问题具有重要意义。为了寻求决策代价和测试代价的最优平衡点,本文设计了一个启发式函数用来综合决策代价和测试代价。
因为产生测试代价的因素(时间、金钱、复杂度等)的维度不同,很难将各因素综合起来考虑。一般地,属性重要度越高的属性,它所拥有的分类能力越强,测试成本越高。
定义8 给定决策信息系统
S=(U,C∪D,V,f) ,条件属性c(c∈C) 对决策结果的影响度可以定义为I(c)=H(D|C−{c})−H(D|C) (16) 其中,
I(c) 的值越大,该决策属性对属性c 的依赖程度越高,说明属性c 的影响度越大。属性影响度作为启发式信息来度量某一属性的分类能力,区分能力越大,带来的测试代价越高。因此,测试代价与属性重要度呈现正相关关系,所以条件属性c 的测试代价可以定义为TCc=η×I(c) (17) 其中,
η 是一个常数。一般地,若两个条件属性对决策属性的影响度一致(即划分能力一致),那么这两个条件属性具有一样的测试代价。
定义9 在多粒度空间
GS=(GL1,GL2,⋯,GLn) 中,第i 层的决策代价可以定义为DCGLi=COST(POS(αi,βi)(Xi))+COST(BND(αi,βi)(Xi))+COST(NEG(αi,βi)(Xi)) (18) 其中,
GLi 表示GS 的第i 粒层,COST(POS(αi,βi)(Xi)) 表示产生第1类分类错误带来的代价,COST (NEG(αi,βi)(Xi)) 表示产生第2类分类错误带来的代价,COST(BND(αi,βi)(Xi)) 表示产生不确定性分类带来的代价。因为测试代价和决策代价呈现负相关关系且量纲不相同,所以不能将其直接进行计算。为了更好地计算总代价,本文引入变异系数的概念,并基于变异系数定义一种综合客观的评价函数进行总代价计算的方式
Total_COSTGLi=θ1×TC′GLi+θ2×DC′GLi (19) 其中,
Total_COSTGLi 表示第i 粒层上的总代价,TC′GLi 和DC′GLi 是标准化后的测试代价和决策代价,θ1=C.VTCGLiC.VTCGLi+C.VDCGLi,θ2=C.VDCGLiC.VTCGLi+C.VDCGLi (20) C.V 表示变异系数。变异系数是衡量各组数据变异程度的一种统计量。在统计学中,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行综合计算不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。因为变异系数没有量纲,因此得到结果是一个标量,可以客观地将决策代价与测试代价相结合。
4. 实验对比及分析
4.1 实验设计
为了更好地说明所提模型的有效性和实用性,本文选取美国加州大学欧文分校(University of California Irvine, UCI)数据库的6个标准数据集进行了对比实验,并且每个数据集在两种不同的代价环境下进行实验。数据集的详细信息如表2所示。实验环境为8GB RAM, 3.2 GHz CPU, Windows 10 system,编程语言是Python。
表 2 数据集的描述序号 数据集 属性特征 数目 条件属性个数 1 Balance-scale Categorical 625 4 2 Breast Cancer Wisconsin Integer 699 9 3 Tic-Tac-Toe Endgame Categorical 958 9 4 Car Evaluation Categorical 1728 6 5 Nursery Categorical 12960 8 6 Chess Categorical, Integer 28056 6 本文算法的框架如图2所示,可以分为3个过程:属性重要度选择、多粒度空间构建和最优粒度选择。其中属性重要度选择部分由信息增益和卡方检验构成;在多粒度空间构建时,为代价参数设置了惩罚规则;最后利用变异系数消除测试代价与决策代价量纲的差异。
在计算算法的时间复杂度时,往往以最坏情况计算。根据上述实验步骤,算法的时间复杂度主要取决于多粒度空间构建,从图1中可知,多粒度空间是一个自顶向下且具有偏序关系的层级结构,层数是由条件属性集的基数(属性个数)所决定的。因属性重要度的选择方法是由卡方检验和信息增益所构成,因此需要对所有的属性进行计算:第1步属性重要度选择过程的时间复杂度为
O(n) ;多粒度空间的构建是基于经过属性重要度方法计算后条件属性集的属性个数的,所以构建多粒度空间的时间复杂度为O(n) ,同时在每一粒层上借助惩罚规则对代价参数进行修改的时间复杂度为O(1) ,因此第2步构建多粒度空间的时间复杂度为O(n) ;第3步在最优粒度选择过程中,需要对全部粒层进行遍历计算,同样时间复杂度为O(n) 。因为算法中3个步骤是递进关系,所以该算法整体的时间复杂度为O(n) ,其中n 表示序贯三支决策的条件属性集中属性的个数。4.2 实验结果分析
本节对4.1节所选的UCI数据集进行了实验,为了方便研究,首先将数据集中的字符型数据转化为整数型数据;其次给出2组代价参数,其数值均满足第4节中定义并通过代价参数计算决策阈值对
(α,β) ,如表3所示;此外,为了体现最优化的思想,设计惩罚函数对代价参数进行惩罚。本文所选的惩罚函数是ϕ(x)=log2(1+0.1×k)×λσ ,其中σ={NP,BP, PN,BN} 。表 3 代价参数λPP λBP λNP λPN λBN λNN 第1组 0 1 4 5 2 0 第2组 0 2 6 7 3 0 通过实验发现,运用上述的算法均可以得到不同数据集的代价最小的最优粒层,验证了算法的实用性。图3和图4给出了不同代价参数下的各数据集的代价变化以及最优粒层。另外,表4和表5分别列出了各数据集最优粒层的详细数据。从图3、图4和表4、表5中清楚地看出,所选的最优粒度较符合人类的认知。同时,所提出的代价结构利用标准化和变异系数进行处理能够消除因测试代价和决策代价尺度和量纲不同所带来的影响。
表 4 第1组代价参数下各个数据集最优粒层信息数据集 最优粒层 测试代价 决策代价 权重 总代价 Balance-scale 3 696.6 118.0 (0.46,0.54) 0.4172 Breast Cancer Wisconsin 8 323.7 522.6 (0.52,0.48) 0.3684 Tic-Tac-Toe Endgame 6 424.0 314.3 (0.49,0.51) 0.4453 Car Evaluation 4 636.0 35.2 (0.52,0.48) 0.4032 Chess 4 1997.3 0.0 (0.50,0.50) 0.4818 Nursery 6 998.9 8677.1 (0.54,0.46) 0.5423 表 5 第2组代价参数下每个数据集最优粒层信息数据集 最优粒层 测试代价 决策代价 权重 总代价 Balance-scale 3 696.6 73.0 (0.47,0.53) 0.3172 Breast Cancer Wisconsin 5 227.9 652.1 (0.48,0.52) 0.4459 Tic-Tac-Toe Endgame 6 424.0 147.4 (0.40,0.60) 0.2941 Car Evaluation 4 636.0 372.1 (0.42,0.58) 0.3132 Chess 4 1997.3 14029.1 (0.41,0.59) 0.3705 Nursery 5 731.3 17162.085 (0.55,0.45) 0.5522 具体地,针对Breast Cancer Wisconsin数据集,通过使用最优粒度选择算法,将在不同代价参数环境下寻找一个总代价最小的粒度空间。从实验结果可以看出,在第1组代价参数下,代价最小的最优粒度空间由
{c2,c3,c6,c7,c5,c8,c4,c9} 诱导而得到并且构造多粒度空间的顺序是c2→c3→c6→ c7→c5→c8→c4→c9 。此时构建的粒度空间总代价最小,为0.3684(标准化后);在第2组代价参数下,代价最小的最优粒度空间{c2,c3,c6,c7,c5} 由诱导而得到,并且构造多粒度空间的顺序是c2→c3→ c6→c7→c5 。此时构建的粒度空间总代价最小,为0.4459(标准化后)。从以上6个数据集的实验结果可以看出,选取不同的代价参数时,所得到的最优粒层不一定是相同的,即便是改变一个代价参数也可能引起整个序贯三支决策粒层结构的改变,进而得到代价最小的最优粒层可能也是不一样的。相比于第1组代价参数,第2组代价参数值更大,所得到的最优属性子集中属性个数更少,这种所得到的代价最小的最优粒层是较为符合人类认知的。同时,两组代价参数通过定理1可以得到
αk+1>αk ,βk+1<βk ,随着粒度空间的细化,每一粒层上的决策标准更为严格,分类到接受域(或延迟域)中对象的准确率更高,这与现实生产中的实际情况也是相吻合的。此外,为了说明惩罚规则的有效性,将所提模型(模型1)与不加惩罚规则的最优粒层选择模型(模型2)在第1组代价参数下进行对比,实验结果如表6所示。从表中可以发现,模型1和模型2均可以得到代价最小的粒层。相比于模型2,模型1所得到的粒层比模型2所得到的最优属性子集中属性个数更多,即当前模型1所得的粒层能够获取的信息更多。通过实验说明,利用惩罚函数对代价参数进行合理的修改,在选取最优粒层的时候逐步提高了阈值要求,能够有效地防止选择测试代价较小同时精度较差的粒层。因此,所提出的模型具有更好的实用性。
表 6 最优粒层比较数据集 模型 最优粒层 冗余属性 最优属性子集 Balance-scale 模型1 3 ϕ {c4,c3,c2} 模型2 3 ϕ {c4,c3,c2} Breast Cancer Wisconsin 模型1 8 {c1} {c2,c3,c6,c7,c5,c8,c4,c9} 模型2 5 {c1} {c2,c3,c6,c7,c5} Tic-Tac-Toe Endgame 模型1 6 ϕ {c8,c6,c4,c2,c9,c7} 模型2 6 ϕ {c8,c6,c4,c2,c9,c7} Car Evaluation 模型1 3 {c2} {c4,c1,c6} 模型2 3 {c2} {c4,c1,c6} Chess 模型1 6 ϕ {c3,c5,c2,c1,c4,c6} 模型2 5 ϕ {c3,c5,c2,c1,c4} Nursery 模型1 6 {c3,c6} {c8,c2,c1,c7,c5,c4} 模型2 6 {c3,c6} {c8,c2,c1,c7,c5,c4} 在一定程度上,本文所提模型在实验过程中给定的代价参数需要在满足一定约束条件下进行随机选择,不同的代价参数组合得到的结果可能不一致。一般地,所给出的代价参数满足
λPN−λBN> λBP 和λBN<λNP−λBP 等条件较为合理,在惩罚规则下,阈值α 会逐渐增大,阈值β 会逐渐减小,每一粒层上分类时的标准更为严格,接受域或拒绝域中的对象精度越大。5. 结论
序贯三支决策作为粒计算概念下的产物,其目标是提供一个灵活的机制和方法,使得用户在信息粒化过程中做出合适的决策,因此如何通过合理的粒度选择,来对复杂问题进行求解是值得研究的。本文介绍了一种新的序贯三支决策中最优粒度选择的方法,其思想是首先通过信息增益对属性的分类能力进行排序,再利用卡方检验进行属性之间的相似度检验,去除冗余属性。其次,设计惩罚函数对代价参数进行处理,使其能够随着粒度自适应变化。进一步地,通过测试代价和决策代价的变异系数建立了一种客观的综合度量代价的方法,消除两种代价量纲不一致带来的影响,实现同量纲下的评价。最后,通过UCI上的标准数据集对本文所提方法进行了验证,实验结果表明了所提方法选取的最优粒度空间具有一定的实用性。
-
算法1 求解问题P1的NAF算法 输入:主网络Q的参数集v,目标网络ˆQ的参数集v−=v,经验
池X=∅,计数器t=0,T=0输出:动作向量a(t) Repeat: 获得当前时隙状态st,tstart=t Repeat: 产生随机噪声向量Nt 选择当前时隙动作at=α'(st|vt)+Nt 执行动作a(t)并获得即时奖励rt和下一时隙状态st+1 将经验(st,at,rt,st+1)存储到经验池X 从经验池X中随机抽样包含M条经验的Mini-batch 对于经验m计算:ym=rm+γˆV(sm+1|v−t) 计算损失函数:
L(vt)=1MM∑m=1(ym−Q(sm,am|vt))2使用梯度下降法对主网络进行更新:
vt:=vt−α∇L(vt)t:=t+1,每隔Y个时隙更新目标网络v−t=vt Until t==tstart+~T T:=T+1 Until T>Tmax 表 1 仿真参数
参数 值 参数 值 参数 值 ˜T(回合) 30 Ic 102 G(dBi) 10 M(经验) 128 η 0.59 fCF(GHz) 40 Y(时隙) 300 FBP 3 Hu(m) 70 NTx(天线) 64 FAP 4 Tenv(K) 298 NRx(天线) 4 B(GHz) 1 Tsur0(K) 303 θ π/2 mc(g) 1 KBP 8×107 χNLos 2.4 Ptx(W) 5 KAP 6×107 ψNLoS 5.27 d0(m) 5 PLNA(mW) 24.3 χLos 2 L(mm) 2 N0(dBm/Hz) −174 ψLoS 5.3 D(mm) 1 k1(W/(m⋅K)) 401 α1 0.1 A(cm2) 1 k2(W/(m⋅K)) 130 α2 0.2 Dmax(m) 90 hair(W/(m2⋅K)) 26.3 λ 0.3 Tmax(回合) 600 cchip(J/(kg⋅K)) 1030 -
[1] GERACI G, GARCIA-RODRIGUE A, AZARI M M, et al. What will the future of UAV cellular communications be? A flight from 5G to 6G[J]. IEEE Communications Surveys & Tutorials, 2022, 24(3): 1304–1335. doi: 10.1109/COMST.2022.3171135 [2] YANG Jing, GE Xiaohu, THOMPSON J, et al. Power-consumption outage in beyond fifth generation mobile communication systems[J]. IEEE Transactions on Wireless Communications, 2021, 20(2): 897–910. doi: 10.1109/TWC.2020.3029051 [3] GARIMELLA S V, PERSOONS T, WEIBEL J A, et al. Electronics thermal management in information and communications technologies: Challenges and future directions[J]. IEEE Transactions on Components, Packaging and Manufacturing Technology, 2017, 7(8): 1191–1205. doi: 10.1109/TCPMT.2016.2603600 [4] CHIRIAC V, MOLLOY S, ANDERSON J, et al. A figure of merit for mobile device thermal management[C]. The 15th IEEE Intersociety Conference on Thermal and Thermomechanical Phenomena in Electronic Systems (ITherm), Las Vegas, USA, 2016: 1393–1397. [5] BHAT G, GUMUSSOY S, and OGRAS U Y. Power and thermal analysis of commercial mobile platforms: Experiments and case studies[C]. 2019 Design, Automation & Test in Europe Conference & Exhibition (DATE), Florence, Italy, 2019: 144–149. [6] ARNOMO S A, SIMANJUNTAK P, and NUR SADIKAN S F. Overheating analysis of mobile phone temperature based on multitasking process[C]. 2021 International Conference on Computer Science and Engineering (IC2SE), Padang, Indonesia, 2021: 1–6. [7] MAMMELA A and ANTTONEN A. Why will computing power need particular attention in future wireless devices[J]. IEEE Circuits and Systems Magazine, 2017, 17(1): 12–26. doi: 10.1109/MCAS.2016.2642679 [8] YANG Jing, GE Xiaohu, and ZHONG Yi. How much of wireless rates can smartphones support in 5G networks?[J]. IEEE Network, 2019, 33(3): 122–129. doi: 10.1109/MNET.2018.1800025 [9] 陈新颖, 盛敏, 李博, 等. 面向6G的无人机通信综述[J]. 电子与信息学报, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789CHEN Xinying, SHENG Min, LI Bo, et al. Survey on unmanned aerial vehicle communications for 6G[J]. Journal of Electronics &Information Technology, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789 [10] ZHAN Cheng and HUANG Renjie. Energy efficient adaptive video streaming with rotary-wing UAV[J]. IEEE Transactions on Vehicular Technology, 2020, 69(7): 8040–8044. doi: 10.1109/TVT.2020.2993303 [11] CHEN Yan, ZHANG Hangjing, and HU Yang. Optimal power and bandwidth allocation for multiuser video streaming in UAV relay networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(6): 6644–6655. doi: 10.1109/TVT.2020.2985061 [12] FU Xiuhua, DING Tian, KADOCH M, et al. Uplink performance analysis of UAV cellular communications with power control[C]. 2020 International Wireless Communications and Mobile Computing (IWCMC), Limassol, Cyprus, 2020: 676–679. [13] LIU Xiao, LIU Yuanwei, CHEN Yue, et al. Trajectory design and power control for multi-UAV assisted wireless networks: A machine learning approach[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 7957–7969. doi: 10.1109/TVT.2019.2920284 [14] CHEN Mingzhe, SAAD W, and YIN Changchuan. Echo-liquid state deep learning for 360 content transmission and caching in wireless VR networks with cellular-connected UAVs[J]. IEEE Transactions on Communications, 2019, 67(9): 6386–6400. doi: 10.1109/TCOMM.2019.2917440 [15] GOLDSMITH A. Wireless Communications[M]. Cambridge, USA: Cambridge University Press, 2005: 78–79. [16] ZHAO Pengtao, TIAN Hui, CHEN K C, et al. Context-aware TDD configuration and resource allocation for mobile edge computing[J]. IEEE Transactions on Communications, 2020, 68(2): 1118–1131. doi: 10.1109/tcomm.2019.2952580 [17] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236 [18] GU Shixiang, LILLICRAP T, SUTSKEVER I, et al. Continuous deep Q-learning with model-based acceleration[C]. The 33rd International Conference on International Conference on Machine Learning, New York, USA, 2016: 2829–2838. 期刊类型引用(8)
1. 张欣蕊,万仁霞,岳晓冬,陈瑞典. 基于测试代价的三支邻域属性约简算法. 计算机应用研究. 2024(03): 836-841 . 百度学术
2. 廖淑娇,吴迪,卢亚倩,范译文. 多尺度决策系统中测试代价敏感的属性与尺度同步选择. 模式识别与人工智能. 2024(04): 368-382 . 百度学术
3. 吕艳娜,苟光磊,张里博,张耀洪. 深度置信网络的代价敏感多粒度三支决策模型研究. 计算机应用研究. 2023(03): 833-838 . 百度学术
4. 吴迪,廖淑娇,范译文. 协调多尺度决策系统中基于测试代价的属性与尺度选择. 模式识别与人工智能. 2023(05): 433-447 . 百度学术
5. 王君宇,杨亚锋,薛静轩,李丽红. 可拓序贯三支决策模型及应用. 山东大学学报(理学版). 2023(07): 67-79 . 百度学术
6. 宋世军,樊敏. 基于随机森林算法的大数据异常检测模型设计. 吉林大学学报(工学版). 2023(09): 2659-2665 . 百度学术
7. 李璐,李宝霖,李丽红. 模糊曼哈顿距离加权最优粒度选择算法. 华北理工大学学报(自然科学版). 2023(04): 58-65 . 百度学术
8. 杨亚锋,巩书鑫,王红瑞,赵自阳. 基于偏联系数的三支决策模型及应用. 应用基础与工程科学学报. 2022(06): 1346-1356 . 百度学术
其他类型引用(8)
-