高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

考虑能耗中断的无人机通信中基于深度强化学习的资源管理

罗佳 陈前斌 唐伦 张志才

张清华, 庞国弘, 李新太, 张雪秋. 基于代价敏感的序贯三支决策最优粒度选择方法[J]. 电子与信息学报, 2021, 43(10): 3001-3009. doi: 10.11999/JEIT200821
引用本文: 罗佳, 陈前斌, 唐伦, 张志才. 考虑能耗中断的无人机通信中基于深度强化学习的资源管理[J]. 电子与信息学报, 2023, 45(8): 2885-2892. doi: 10.11999/JEIT220907
Qinghua ZHANG, Guohong PANG, Xintai LI, Xueqiu ZHANG. Optimal Granularity Selection Method Based on Cost-sensitive Sequential Three-way Decisions[J]. Journal of Electronics & Information Technology, 2021, 43(10): 3001-3009. doi: 10.11999/JEIT200821
Citation: LUO Jia, CHEN Qianbin, TANG Lun, ZHANG Zhicai. Resource Management Based on Deep Reinforcement Learning for UAV Communication Considering Power-Consumption Outage[J]. Journal of Electronics & Information Technology, 2023, 45(8): 2885-2892. doi: 10.11999/JEIT220907

考虑能耗中断的无人机通信中基于深度强化学习的资源管理

doi: 10.11999/JEIT220907
基金项目: 国家自然科学基金(62071078),重庆市自然科学基金(cstc2021jcyj-bsh0175),四川省科技计划(2021YFQ0053)
详细信息
    作者简介:

    罗佳:男,讲师,博士,研究方向为下一代无线通信网络、人工智能、区块链等

    陈前斌:男,教授,博士生导师,研究方向为个人通信、多媒体信息处理与传输、异构蜂窝网络等

    唐伦:男,教授,博士生导师,研究方向为下一代无线通信网络、异构蜂窝网络、图像处理等

    张志才:男,讲师,博士,研究方向为移动边缘计算、无人机、车联网和机器学习等

    通讯作者:

    罗佳 luojia@cqupt.edu.cn

  • 中图分类号: TN929.5

Resource Management Based on Deep Reinforcement Learning for UAV Communication Considering Power-Consumption Outage

Funds: The National Natural Science Foundation of China (62071078), The Chongqing Municipal Natural Science Foundation (cstc2021jcyj-bsh0175), The Sichuan Science and Technology Program (2021YFQ0053)
  • 摘要: 最新研究表明,高速传输导致的手机温度变化会影响相应的传输性能。针对高速传输下未考虑与手机温度有关的能耗中断而导致传输性能降低的问题,该文提出一种基于深度强化学习的资源管理方案去考虑无人机(UAV)通信场景下的能耗中断。首先,给出无人机通信的网络模型与智能手机热传递模型的分析;其次,将能耗中断的影响以约束条件的形式整合到无人机场景的优化问题中,并通过联合考虑带宽分配、功率分配和轨迹设计优化系统吞吐量;最后,采用马尔可夫决策过程描述相应的优化问题并通过名为归一化优势函数的深度强化学习算法求解。仿真表明,所提方案能有效提升系统吞吐量并得到合理的无人机飞行轨迹。
  • 在实际决策中,如何处理代价敏感问题一直是研究的热点之一。代价通常分为决策代价(误分类代价和延迟代价)和测试代价(测试成本)。一般地,决策代价随着信息逐步增加而降低,而测试代价随着信息增加而增加,两者呈负相关关系且量纲不同。例如,在医疗诊断中,若患者偏好高精度的诊断,会选择成本较高的检查项目;相反,若患者偏好普通的诊断,往往会选择成本低的检查项目。这两种情况都广泛发生在实际应用中,因此如何实现代价最小的决策是值得研究的。

    现阶段许多专家学者将代价敏感研究运用于机器学习理论中,并取得了重要的研究成果[1,2]。目前,代价敏感方面的研究方法主要分为以下3个方面:从决策代价敏感的角度来看,Li等人[3]结合序贯三支决策提出了一种最小化代价的决策模型;Zhang等人[4]基于邻域覆盖方法,根据损失函数改变覆盖半径,来减小分类损失;Jia等人[5]通过定义一种新的属性约简方法使模型的决策代价最小。同时,在降低测试代价方面,Yang等人[6]提出了一种测试代价最优的粒度结构选择回溯算法。Min等人[7]在测试代价中引入代价敏感决策系统的层次结构。另外,在同时考虑决策代价和测试代价的研究中,广大学者也进行了相应的工作[8,9]

    序贯三支决策[10]是近年发展起来的一种处理不确定性决策的方法。作为粒计算[11-13]概念下的具体模型,其目标是提供一种灵活的机制和方法,帮助用户在信息粒化过程中做出合适的决策。目前在图像分析、属性约简、语音识别等方面均已取得了较大的成果[14-17]。代价敏感的序贯三支决策从粒计算的角度提高了三支决策的有效性,实现了粗粒度到细粒度渐进式的决策过程。但在最优粒度选择方面,仍存在一些问题需要改进。首先,在构建多粒度空间过程中,从属性重要度选择方法上来看,存在没有充分考虑数据中有冗余属性或不相关属性的问题,这样可能会增加额外的测试代价或有损模型的性能。其次,随着获取信息的增多,针对两类错误分类和两类不确定性分类[18]的代价参数是保持不变的,使得代价参数在序贯三支决策渐进计算过程中缺乏一定的自适应性,导致在粗粒层产生较低的分类精度,从而影响模型的最优粒度选择。此外,在现有计算总代价的方法中,未能考虑测试代价与决策代价测量尺度或量纲不统一所带来的影响,从而丢失部分关键因素,导致直接进行计算得到的结果不准确。针对这些问题,本文首先利用卡方检验剔除高相关性的条件属性,再借助信息增益计算属性重要度并根据得到的属性重要度序列进行多粒度空间的构建。其次,针对两类错误分类和两类不确定性分类[18]的代价参数缺乏自适应性,结合渐进计算的思想,借助惩罚函数来对代价参数设置相应的惩罚规则,有效提升了模型的分类精度。最后,利用变异系数构建了一种合理的代价结构,实现了同量纲下的代价计算,从而可以有效利用测试代价和决策代价的信息。实验表明所提出的模型在不同的代价场景下能够产生合理的多粒度空间结构,同时所得到的代价最小的粒度空间也更符合实际应用场景代价最小的需求。

    定义1[19,20] 给定决策信息系统S=(U,CD,V,f),其中U表示非空有限论域;CD分别表示条件属性集和决策属性集,且CD=V表示属性值的集合;f:U×CV表示一个信息函数,用于指定U中每一个对象x的属性值。

    定义2[19,20] 给定决策信息系统S=(U,CD,V,f),对于任意属性子集AC,等价关系EA定义为

    EA={(x,y)U×U|aA,a(x)=a(y)}
    (1)

    等价关系可形成论域U上的一个划分,记为U/EA,简记为U/A。给定对象xU[x]EA表示在属性子集A所形成的等价关系下的等价类,简记为[x]A[x]

    相比于二支决策,三支决策理论的关键在于引入了延迟决策,即当决策对象的信息不足时采用延迟决策,等待收集更多有用信息后再重新进行决策。这种对决策对象的认识从粗粒度向细粒度转化,使边界域中的对象逐渐被正确决策,进而形成一种序贯决策方法。下面介绍序贯三支决策的一些基本概念。

    定义3[10] 给定决策信息系统S=(U,CD,V,f),假定A1,A2,,An表示一组条件属性集,且满足A1A2AnC。对于xU,有

    EAnEA2EA1
    (2)
    [x]An[x]A2[x]A1
    (3)

    定义4[10] 给定决策信息系统S=(U,CD,V,f),设A1,A2,,An表示一组条件属性集,且满足A1A2AnC。在这种条件属性集的序贯情形下多粒度空间记为GS,在第i(i=1,2,,n)层,GS的粒度结构记为GLi,,GLiGS定义为

    GLi=(Ui,AiD,Vi,fi)
    (4)
    GS=(GL1,GL2,,GLn)
    (5)

    在多粒度空间中,给定第i层的阈值(αi,βi),则第i层的接受域、延迟域和拒绝域可以表示为

    POS(αi,βi)(Xi)={xUi|Pr(Xi|[x]Ai)αi}
    (6)
    BND(αi,βi)(Xi)={xUi|βi<Pr(Xi|[x]Ai)<αi}
    (7)
    NEG(αi,βi)(Xi)={xUi|Pr(Xi|[x]Ai)βi}
    (8)

    其中,Ui表示第i层的论域,Xi(XiUi)表示第i层的目标概念。

    经过GS的第i层决策后,得到边界域BND(αi,βi)(Xi),对于BND(αi,βi)(Xi)中的对象,在第i+1层重新进行决策,因此Ui+1=BND(αi,βi)(Xi),满足UnU2U1U1=U。此外,第i+1层的目标概念Xi+1=XiBND(αi,βi)(Xi),满足XnX2X1X1=X

    粗糙集理论为序贯三支决策奠定了理论基础,从多粒度的角度来看,随着属性的增加,等价类会被进一步的细分。依据条件属性集构建的多粒度空间可以用树形结构来表示,最顶层表示论域的信息,即最粗粒层,随着属性的逐步加入,信息粒度逐步变细。因此,序贯三支决策的决策过程能够构成一个多粒度空间。图1简要介绍了多粒度的构造过程示意图。

    图 1  多粒度空间的构造过程

    多粒度空间的构建与属性重要度的选择是紧密相连的,如果充分考虑条件属性内在的关系和条件属性与决策属性之间的关系来进行属性重要度选择,所得到的多粒度空间往往会更优。因为数据集中有些条件属性是冗余甚至是不相关的。冗余属性的存在会增加额外的测试代价,而不相关的属性会有损模型的性能。因此,对条件属性进行相关性分析是有必要的,从而使模型泛化能力更强。

    卡方检验是一种用途很广的计数资料的假设检验方法,属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联程度。其主要思想在于比较理论频数和实际频数的吻合程度或者拟合优度,用来描述两个事件的独立性。卡方值χ2越大,说明两个事件的相互独立性越弱。

    定义5(卡方分布[21]) 设s个相互独立的随机变量Y1,Y2,,Ys,且符合标准正态分布N(0,1),则这s个随机变量的平方和Q=si=1Y2i为服从自由度为s的卡方分布,记为Qχ2(s)

    定义6(卡方检验[21]) 给定数据的实际值A和理论值T,则卡方检验的公式为

    χ2=(AT)2T
    (9)

    理论上,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值为0,表明理论值与数据的实际值完全符合。因此,通过卡方检验可以更好地剔除条件属性集中的冗余属性,减小测试代价。

    同时,多粒度空间的构建与条件属性的划分能力是紧密相连的,如果充分考虑条件属性的划分能力来进行论域的划分,所得到的多粒度空间往往会更优。目前,属性重要度选择的方法大多基于熵。熵是用来描述论域中不确定性的一种度量方法。熵越大,论域的不确定性就越大。因此可以使用信息增益(论域集合划分前后熵的差值)来衡量使用当前属性对于论域划分效果的好坏。

    定义7(信息增益[22,23]) 给定决策信息系统S=(U,CD,V,f), BC。假设论域U在等价关系EBED下的划分分别为U/UB={B1,B2,,Bm}B={B1,B2,,Bm}U/UD={D1,D2,,Dp}D={D1,D2,,Dp},信息增益Gain(D,B)可定义为

    Gain(D,B)=H(D)H(D|B)
    (10)

    其中,H(D)=pi=1|Di||U|log2|Di||U|, H(D|B)=mi=1P(Bi)pj=1P(Dj|Bi)log2P(Dj|Bi)

    基于信息增益的属性重要度做出选择的规则是:对于待划分的论域,在划分前的熵是一定的,而划分后的熵是不定的,且划分后的熵越小说明使用此属性划分所得到的子集的不确定性越小,即纯度越高,因此划分前后熵值差异越大,说明使用当前属性划分论域,其不确定性越小。以信息增益作为划分论域的属性选择的标准,在属性选择上更倾向于选择取值较多的属性,这样在多粒度空间构建的过程中粒度空间往往能够朝着最快到达最细粒度空间的方向发展,因此可以选择使得信息增益最大的属性来划分当前论域。

    因为基于决策粗糙集的三支决策存在一定的容错能力,所以3个域中都可能存在不确定性进而产生相应的代价。在序贯三支决策中,随着属性的增加,等价类被进一步细分,信息粒度逐步变细,对象之间的区分也越明显,边界域中的对象可能会被重新分类,分类精度会进一步的提升,所以针对错误分类和不确定性分类应该给予更高的代价惩罚。本文借助文献[24]中的思想,考虑损失函数在随着粒度变化的情况下,利用惩罚函数对其进行相应的修改。因为在实际应用中,通常可以通过加大惩罚力度的方式来获取“优秀”的目标对象。同时,惩罚力度会随着惩罚次数的增加而增加,因此,惩罚函数必定是一个单调递增函数。进一步地,在序贯三支决策中,通过惩罚规则对代价参数进行修改,进而调整决策阈值(即α值的增大或β值的减小),这样可以使等价类得到更准确的分类。同时,代价参数的值增大,即错分代价和延迟代价也会增高。所以,通过引入惩罚规则,利用代价参数值的增大进而提高决策精度。

    考虑到采取不同行动会产生不同的损失,记λkBPλkNP表示在第k层,x属于X时采取行动aBaN下的损失;相似地,记λkPNλkBN表示在第k层,x不属于X时采取行动aPaB下的损失;另外,代价参数λPPλNN表示正确划分下的代价,不产生代价损失。代价参数矩阵可以描述为表1

    表 1  代价参数矩阵
    X¬X
    aP0λkPN
    aBλkBPλkBN
    aNλkNP0
    下载: 导出CSV 
    | 显示表格

    代价参数λkσ, σ={NP,BP,PN,BN}可以表示为λkσ=λk1σ+ϕ(λk1σ),其中ϕ(x)是单调递增的凹函数,粒度越细(即k越大),ϕ(x)的值越大。因此,根据上述规律,可以得到λkσλ1σ的关系

    λkσ=λk1σ+ϕ(λk1σ)λk1σ=λk2σ+ϕ(λk2σ)λ2σ=λ1σ+ϕ(λ1σ)}
    (11)

    将式(11)进行累加,可以得到:λkσ=λ1σ+k1i=1ϕ(λiσ)

    因此,λkσ可以表示为

    λkσ={λ1σ,k=1λ1σ+k1i=1ϕ(λiσ),k>1
    (12)

    根据贝叶斯决策理论,将属于目标集合的对象分类到接受域的代价要小于等于将其分类到延迟域和拒绝域中的代价。相似地,将不属于目标集合的对象分类到拒绝域的代价要小于等于将其分类到延迟域和接受域中的代价。基于这两种规则,可以得到代价参数之间存在以下规律,λkNP>λkBPλkPP, λkPN>λkBNλkNN。因此决策阈值可以表示为

    α=(λkPNλkBN)(λkPNλkBN)+(λkBPλkPP)
    (13)
    γ=(λkPNλkNN)(λkPNλkNN)+(λkNPλkPP)
    (14)
    β=(λkBNλkNN)(λkBNλkNN)+(λkNPλkBP)
    (15)

    一般地,随着属性的增加,粒度变细,形成的等价类将发生变化,代价参数值增大,阈值也会相应地发生改变。

    定理1 在多粒度空间中,任意相邻两个粒层GLk+1GLk上的代价参数分别为λk+1σλkσ,且λk+1σ=λkσ+ϕ(λkσ)。相邻两个粒层GLk+1GLk之间的阈值(αk+1,βk+1)(αk,βk)存在以下4种关系:

    (1)如果满足λkPNλkBN>λkBPλkBN>λkNPλkBP,则阈值 αk+1>αk, βk+1>βk

    (2)如果满足λkPNλkBN>λkBPλkBN<λkNPλkBP,则阈值 αk+1>αk, βk+1<βk

    (3)如果满足λkPNλkBN<λkBPλkBN>λkNPλkBP,则阈值 αk+1<αk, βk+1>βk

    (4)如果满足λkPNλkBN<λkBPλkBN<λkNPλkBP,则阈值 αk+1<αk, βk+1<βk

    因上述4种情形证明过程类似,故本文仅证明情形(1)。

    证明 对于相邻两个粒层的阈值αk=λkPNλkBNλkPNλkBN+λkBPαk+1=λk+1PNλk+1BNλk+1PNλk+1BN+λk+1BP, αk+1αk=λkBP(λk+1PNλk+1BN)λk+1BP(λkPNλkBN)(λkPNλkBN+λkBP)(λk+1PNλk+1BN+λk+1BP)。因为λkPNλkBN>λkBP,所以λk+1PNλk+1BNλkPNλkBN>λk+1BPλkBP,则αk+1>αk

    对于相邻两个粒层的阈值βk=λkBNλkBN+λkNPλkBPβk+1=λk+1BNλk+1BN+λk+1NPλk+1BP, βk+1βk=λk+1BN(λkNPλkBP)λkBN(λk+1NPλk+1BP)(λkBN+λkNPλkBP)(λk+1PNλk+1BN+λk+1BP)。因为λkBN>λkNPλkBP,所以λk+1NPλk+1BPλkNPλkBP>λk+1BNλkBN,则βk+1>βk。证毕

    定理2 在多粒度空间中,任意相邻两个粒层GLk+1GLk上的代价参数分别为λk+1σλkσ,且λk+1σ=λkσ+ϕ(λkσ)。如果满足λkPNλkBN=λkBPλkBN=λkNPλkBP,则阈值 αk+1=αk, βk+1=βk

    定理1与定理2同理可证。

    因此,通过引入惩罚函数来处理实际决策过程中的代价参数变化,使得多粒度空间具有更好的适应性,能够动态地进行决策。

    在序贯三支决策中主要存在两种代价,第1种是因对象误分类或者需要延迟决策而产生的决策代价,第2种是因获得新的属性而产生的测试代价,即获取某些属性值的成本。在实际应用场景中,这两种代价都应该被考虑。因此,如何合理地结合决策代价和测试代价来解决问题具有重要意义。为了寻求决策代价和测试代价的最优平衡点,本文设计了一个启发式函数用来综合决策代价和测试代价。

    因为产生测试代价的因素(时间、金钱、复杂度等)的维度不同,很难将各因素综合起来考虑。一般地,属性重要度越高的属性,它所拥有的分类能力越强,测试成本越高。

    定义8 给定决策信息系统S=(U,CD,V,f),条件属性c(cC)对决策结果的影响度可以定义为

    I(c)=H(D|C{c})H(D|C)
    (16)

    其中,I(c)的值越大,该决策属性对属性c的依赖程度越高,说明属性c的影响度越大。属性影响度作为启发式信息来度量某一属性的分类能力,区分能力越大,带来的测试代价越高。因此,测试代价与属性重要度呈现正相关关系,所以条件属性c的测试代价可以定义为

    TCc=η×I(c)
    (17)

    其中,η是一个常数。

    一般地,若两个条件属性对决策属性的影响度一致(即划分能力一致),那么这两个条件属性具有一样的测试代价。

    定义9 在多粒度空间GS=(GL1,GL2,,GLn)中,第i层的决策代价可以定义为

    DCGLi=COST(POS(αi,βi)(Xi))+COST(BND(αi,βi)(Xi))+COST(NEG(αi,βi)(Xi))
    (18)

    其中,GLi表示GS的第i粒层,COST(POS(αi,βi)(Xi))表示产生第1类分类错误带来的代价,COST(NEG(αi,βi)(Xi))表示产生第2类分类错误带来的代价,COST(BND(αi,βi)(Xi))表示产生不确定性分类带来的代价。

    因为测试代价和决策代价呈现负相关关系且量纲不相同,所以不能将其直接进行计算。为了更好地计算总代价,本文引入变异系数的概念,并基于变异系数定义一种综合客观的评价函数进行总代价计算的方式

    Total_COSTGLi=θ1×TCGLi+θ2×DCGLi
    (19)

    其中,Total_COSTGLi表示第i粒层上的总代价,TCGLiDCGLi是标准化后的测试代价和决策代价,

    θ1=C.VTCGLiC.VTCGLi+C.VDCGLi,θ2=C.VDCGLiC.VTCGLi+C.VDCGLi
    (20)

    C.V表示变异系数。

    变异系数是衡量各组数据变异程度的一种统计量。在统计学中,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行综合计算不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。因为变异系数没有量纲,因此得到结果是一个标量,可以客观地将决策代价与测试代价相结合。

    为了更好地说明所提模型的有效性和实用性,本文选取美国加州大学欧文分校(University of California Irvine, UCI)数据库的6个标准数据集进行了对比实验,并且每个数据集在两种不同的代价环境下进行实验。数据集的详细信息如表2所示。实验环境为8GB RAM, 3.2 GHz CPU, Windows 10 system,编程语言是Python。

    表 2  数据集的描述
    序号数据集属性特征数目条件属性个数
    1Balance-scaleCategorical6254
    2Breast Cancer WisconsinInteger6999
    3Tic-Tac-Toe EndgameCategorical9589
    4Car EvaluationCategorical17286
    5NurseryCategorical129608
    6ChessCategorical, Integer280566
    下载: 导出CSV 
    | 显示表格

    本文算法的框架如图2所示,可以分为3个过程:属性重要度选择、多粒度空间构建和最优粒度选择。其中属性重要度选择部分由信息增益和卡方检验构成;在多粒度空间构建时,为代价参数设置了惩罚规则;最后利用变异系数消除测试代价与决策代价量纲的差异。

    图 2  算法框架

    在计算算法的时间复杂度时,往往以最坏情况计算。根据上述实验步骤,算法的时间复杂度主要取决于多粒度空间构建,从图1中可知,多粒度空间是一个自顶向下且具有偏序关系的层级结构,层数是由条件属性集的基数(属性个数)所决定的。因属性重要度的选择方法是由卡方检验和信息增益所构成,因此需要对所有的属性进行计算:第1步属性重要度选择过程的时间复杂度为O(n);多粒度空间的构建是基于经过属性重要度方法计算后条件属性集的属性个数的,所以构建多粒度空间的时间复杂度为O(n),同时在每一粒层上借助惩罚规则对代价参数进行修改的时间复杂度为O(1),因此第2步构建多粒度空间的时间复杂度为O(n);第3步在最优粒度选择过程中,需要对全部粒层进行遍历计算,同样时间复杂度为O(n)。因为算法中3个步骤是递进关系,所以该算法整体的时间复杂度为O(n),其中n表示序贯三支决策的条件属性集中属性的个数。

    本节对4.1节所选的UCI数据集进行了实验,为了方便研究,首先将数据集中的字符型数据转化为整数型数据;其次给出2组代价参数,其数值均满足第4节中定义并通过代价参数计算决策阈值对(α,β),如表3所示;此外,为了体现最优化的思想,设计惩罚函数对代价参数进行惩罚。本文所选的惩罚函数是ϕ(x)=log2(1+0.1×k)×λσ,其中σ={NP,BP,PN,BN}

    表 3  代价参数
    λPPλBPλNPλPNλBNλNN
    第1组014520
    第2组026730
    下载: 导出CSV 
    | 显示表格

    通过实验发现,运用上述的算法均可以得到不同数据集的代价最小的最优粒层,验证了算法的实用性。图3图4给出了不同代价参数下的各数据集的代价变化以及最优粒层。另外,表4表5分别列出了各数据集最优粒层的详细数据。从图3图4表4表5中清楚地看出,所选的最优粒度较符合人类的认知。同时,所提出的代价结构利用标准化和变异系数进行处理能够消除因测试代价和决策代价尺度和量纲不同所带来的影响。

    图 3  第1组代价参数下各数据集最优粒层的代价变化
    图 4  第2组代价参数下各数据集最优粒层的代价变化
    表 4  第1组代价参数下各个数据集最优粒层信息
    数据集最优粒层测试代价决策代价权重总代价
    Balance-scale3696.6118.0(0.46,0.54)0.4172
    Breast Cancer Wisconsin8323.7522.6(0.52,0.48)0.3684
    Tic-Tac-Toe Endgame6424.0314.3(0.49,0.51)0.4453
    Car Evaluation4636.035.2(0.52,0.48)0.4032
    Chess41997.30.0(0.50,0.50)0.4818
    Nursery6998.98677.1(0.54,0.46)0.5423
    下载: 导出CSV 
    | 显示表格
    表 5  第2组代价参数下每个数据集最优粒层信息
    数据集最优粒层测试代价决策代价权重总代价
    Balance-scale3696.673.0(0.47,0.53)0.3172
    Breast Cancer Wisconsin5227.9652.1(0.48,0.52)0.4459
    Tic-Tac-Toe Endgame6424.0147.4(0.40,0.60)0.2941
    Car Evaluation4636.0372.1(0.42,0.58)0.3132
    Chess41997.314029.1(0.41,0.59)0.3705
    Nursery5731.317162.085(0.55,0.45)0.5522
    下载: 导出CSV 
    | 显示表格

    具体地,针对Breast Cancer Wisconsin数据集,通过使用最优粒度选择算法,将在不同代价参数环境下寻找一个总代价最小的粒度空间。从实验结果可以看出,在第1组代价参数下,代价最小的最优粒度空间由{c2,c3,c6,c7,c5,c8,c4,c9}诱导而得到并且构造多粒度空间的顺序是c2c3c6c7c5c8c4c9。此时构建的粒度空间总代价最小,为0.3684(标准化后);在第2组代价参数下,代价最小的最优粒度空间{c2,c3,c6,c7,c5}由诱导而得到,并且构造多粒度空间的顺序是c2c3c6c7c5。此时构建的粒度空间总代价最小,为0.4459(标准化后)。

    从以上6个数据集的实验结果可以看出,选取不同的代价参数时,所得到的最优粒层不一定是相同的,即便是改变一个代价参数也可能引起整个序贯三支决策粒层结构的改变,进而得到代价最小的最优粒层可能也是不一样的。相比于第1组代价参数,第2组代价参数值更大,所得到的最优属性子集中属性个数更少,这种所得到的代价最小的最优粒层是较为符合人类认知的。同时,两组代价参数通过定理1可以得到αk+1>αk, βk+1<βk,随着粒度空间的细化,每一粒层上的决策标准更为严格,分类到接受域(或延迟域)中对象的准确率更高,这与现实生产中的实际情况也是相吻合的。

    此外,为了说明惩罚规则的有效性,将所提模型(模型1)与不加惩罚规则的最优粒层选择模型(模型2)在第1组代价参数下进行对比,实验结果如表6所示。从表中可以发现,模型1和模型2均可以得到代价最小的粒层。相比于模型2,模型1所得到的粒层比模型2所得到的最优属性子集中属性个数更多,即当前模型1所得的粒层能够获取的信息更多。通过实验说明,利用惩罚函数对代价参数进行合理的修改,在选取最优粒层的时候逐步提高了阈值要求,能够有效地防止选择测试代价较小同时精度较差的粒层。因此,所提出的模型具有更好的实用性。

    表 6  最优粒层比较
    数据集模型最优粒层冗余属性最优属性子集
    Balance-scale模型13ϕ{c4,c3,c2}
    模型23ϕ{c4,c3,c2}
    Breast Cancer Wisconsin模型18{c1}{c2,c3,c6,c7,c5,c8,c4,c9}
    模型25{c1}{c2,c3,c6,c7,c5}
    Tic-Tac-Toe Endgame模型16ϕ{c8,c6,c4,c2,c9,c7}
    模型26ϕ{c8,c6,c4,c2,c9,c7}
    Car Evaluation模型13{c2}{c4,c1,c6}
    模型23{c2}{c4,c1,c6}
    Chess模型16ϕ{c3,c5,c2,c1,c4,c6}
    模型25ϕ{c3,c5,c2,c1,c4}
    Nursery模型16{c3,c6}{c8,c2,c1,c7,c5,c4}
    模型26{c3,c6}{c8,c2,c1,c7,c5,c4}
    下载: 导出CSV 
    | 显示表格

    在一定程度上,本文所提模型在实验过程中给定的代价参数需要在满足一定约束条件下进行随机选择,不同的代价参数组合得到的结果可能不一致。一般地,所给出的代价参数满足λPNλBN>λBPλBN<λNPλBP等条件较为合理,在惩罚规则下,阈值α会逐渐增大,阈值β会逐渐减小,每一粒层上分类时的标准更为严格,接受域或拒绝域中的对象精度越大。

    序贯三支决策作为粒计算概念下的产物,其目标是提供一个灵活的机制和方法,使得用户在信息粒化过程中做出合适的决策,因此如何通过合理的粒度选择,来对复杂问题进行求解是值得研究的。本文介绍了一种新的序贯三支决策中最优粒度选择的方法,其思想是首先通过信息增益对属性的分类能力进行排序,再利用卡方检验进行属性之间的相似度检验,去除冗余属性。其次,设计惩罚函数对代价参数进行处理,使其能够随着粒度自适应变化。进一步地,通过测试代价和决策代价的变异系数建立了一种客观的综合度量代价的方法,消除两种代价量纲不一致带来的影响,实现同量纲下的评价。最后,通过UCI上的标准数据集对本文所提方法进行了验证,实验结果表明了所提方法选取的最优粒度空间具有一定的实用性。

  • 图  1  NAF下的神经网络结构

    图  2  用户数量对系统吞吐量的影响

    图  3  不同方案下的无人机轨迹对比

    算法1 求解问题P1的NAF算法
     输入:主网络Q的参数集v,目标网络ˆQ的参数集v=v,经验
        池X=,计数器t=0T=0
     输出:动作向量a(t)
     Repeat:
        获得当前时隙状态sttstart=t
        Repeat:
          产生随机噪声向量Nt
          选择当前时隙动作at=α'(st|vt)+Nt
          执行动作a(t)并获得即时奖励rt和下一时隙状态st+1
          将经验(st,at,rt,st+1)存储到经验池X
          从经验池X中随机抽样包含M条经验的Mini-batch
          对于经验m计算:ym=rm+γˆV(sm+1|vt)
          计算损失函数:
          L(vt)=1MMm=1(ymQ(sm,am|vt))2
          使用梯度下降法对主网络进行更新:
          vt:=vtαL(vt)
          t:=t+1,每隔Y个时隙更新目标网络vt=vt
        Until t==tstart+T
        T:=T+1
     Until T>Tmax
    下载: 导出CSV

    表  1  仿真参数

    参数参数参数
    ˜T()30Ic102G(dBi)10
    M()128η0.59fCF(GHz)40
    Y()300FBP3Hu(m)70
    NTx(线)64FAP4Tenv(K)298
    NRx(线)4B(GHz)1Tsur0(K)303
    θπ/2mc(g)1KBP8×107
    χNLos2.4Ptx(W)5KAP6×107
    ψNLoS5.27d0(m)5PLNA(mW)24.3
    χLos2L(mm)2N0(dBm/Hz)174
    ψLoS5.3D(mm)1k1(W/(mK))401
    α10.1A(cm2)1k2(W/(mK))130
    α20.2Dmax(m)90hair(W/(m2K))26.3
    λ0.3Tmax()600cchip(J/(kgK))1030
    下载: 导出CSV
  • [1] GERACI G, GARCIA-RODRIGUE A, AZARI M M, et al. What will the future of UAV cellular communications be? A flight from 5G to 6G[J]. IEEE Communications Surveys & Tutorials, 2022, 24(3): 1304–1335. doi: 10.1109/COMST.2022.3171135
    [2] YANG Jing, GE Xiaohu, THOMPSON J, et al. Power-consumption outage in beyond fifth generation mobile communication systems[J]. IEEE Transactions on Wireless Communications, 2021, 20(2): 897–910. doi: 10.1109/TWC.2020.3029051
    [3] GARIMELLA S V, PERSOONS T, WEIBEL J A, et al. Electronics thermal management in information and communications technologies: Challenges and future directions[J]. IEEE Transactions on Components, Packaging and Manufacturing Technology, 2017, 7(8): 1191–1205. doi: 10.1109/TCPMT.2016.2603600
    [4] CHIRIAC V, MOLLOY S, ANDERSON J, et al. A figure of merit for mobile device thermal management[C]. The 15th IEEE Intersociety Conference on Thermal and Thermomechanical Phenomena in Electronic Systems (ITherm), Las Vegas, USA, 2016: 1393–1397.
    [5] BHAT G, GUMUSSOY S, and OGRAS U Y. Power and thermal analysis of commercial mobile platforms: Experiments and case studies[C]. 2019 Design, Automation & Test in Europe Conference & Exhibition (DATE), Florence, Italy, 2019: 144–149.
    [6] ARNOMO S A, SIMANJUNTAK P, and NUR SADIKAN S F. Overheating analysis of mobile phone temperature based on multitasking process[C]. 2021 International Conference on Computer Science and Engineering (IC2SE), Padang, Indonesia, 2021: 1–6.
    [7] MAMMELA A and ANTTONEN A. Why will computing power need particular attention in future wireless devices[J]. IEEE Circuits and Systems Magazine, 2017, 17(1): 12–26. doi: 10.1109/MCAS.2016.2642679
    [8] YANG Jing, GE Xiaohu, and ZHONG Yi. How much of wireless rates can smartphones support in 5G networks?[J]. IEEE Network, 2019, 33(3): 122–129. doi: 10.1109/MNET.2018.1800025
    [9] 陈新颖, 盛敏, 李博, 等. 面向6G的无人机通信综述[J]. 电子与信息学报, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789

    CHEN Xinying, SHENG Min, LI Bo, et al. Survey on unmanned aerial vehicle communications for 6G[J]. Journal of Electronics &Information Technology, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789
    [10] ZHAN Cheng and HUANG Renjie. Energy efficient adaptive video streaming with rotary-wing UAV[J]. IEEE Transactions on Vehicular Technology, 2020, 69(7): 8040–8044. doi: 10.1109/TVT.2020.2993303
    [11] CHEN Yan, ZHANG Hangjing, and HU Yang. Optimal power and bandwidth allocation for multiuser video streaming in UAV relay networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(6): 6644–6655. doi: 10.1109/TVT.2020.2985061
    [12] FU Xiuhua, DING Tian, KADOCH M, et al. Uplink performance analysis of UAV cellular communications with power control[C]. 2020 International Wireless Communications and Mobile Computing (IWCMC), Limassol, Cyprus, 2020: 676–679.
    [13] LIU Xiao, LIU Yuanwei, CHEN Yue, et al. Trajectory design and power control for multi-UAV assisted wireless networks: A machine learning approach[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 7957–7969. doi: 10.1109/TVT.2019.2920284
    [14] CHEN Mingzhe, SAAD W, and YIN Changchuan. Echo-liquid state deep learning for 360 content transmission and caching in wireless VR networks with cellular-connected UAVs[J]. IEEE Transactions on Communications, 2019, 67(9): 6386–6400. doi: 10.1109/TCOMM.2019.2917440
    [15] GOLDSMITH A. Wireless Communications[M]. Cambridge, USA: Cambridge University Press, 2005: 78–79.
    [16] ZHAO Pengtao, TIAN Hui, CHEN K C, et al. Context-aware TDD configuration and resource allocation for mobile edge computing[J]. IEEE Transactions on Communications, 2020, 68(2): 1118–1131. doi: 10.1109/tcomm.2019.2952580
    [17] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
    [18] GU Shixiang, LILLICRAP T, SUTSKEVER I, et al. Continuous deep Q-learning with model-based acceleration[C]. The 33rd International Conference on International Conference on Machine Learning, New York, USA, 2016: 2829–2838.
  • 期刊类型引用(8)

    1. 张欣蕊,万仁霞,岳晓冬,陈瑞典. 基于测试代价的三支邻域属性约简算法. 计算机应用研究. 2024(03): 836-841 . 百度学术
    2. 廖淑娇,吴迪,卢亚倩,范译文. 多尺度决策系统中测试代价敏感的属性与尺度同步选择. 模式识别与人工智能. 2024(04): 368-382 . 百度学术
    3. 吕艳娜,苟光磊,张里博,张耀洪. 深度置信网络的代价敏感多粒度三支决策模型研究. 计算机应用研究. 2023(03): 833-838 . 百度学术
    4. 吴迪,廖淑娇,范译文. 协调多尺度决策系统中基于测试代价的属性与尺度选择. 模式识别与人工智能. 2023(05): 433-447 . 百度学术
    5. 王君宇,杨亚锋,薛静轩,李丽红. 可拓序贯三支决策模型及应用. 山东大学学报(理学版). 2023(07): 67-79 . 百度学术
    6. 宋世军,樊敏. 基于随机森林算法的大数据异常检测模型设计. 吉林大学学报(工学版). 2023(09): 2659-2665 . 百度学术
    7. 李璐,李宝霖,李丽红. 模糊曼哈顿距离加权最优粒度选择算法. 华北理工大学学报(自然科学版). 2023(04): 58-65 . 百度学术
    8. 杨亚锋,巩书鑫,王红瑞,赵自阳. 基于偏联系数的三支决策模型及应用. 应用基础与工程科学学报. 2022(06): 1346-1356 . 百度学术

    其他类型引用(8)

  • 加载中
图(3) / 表(2)
计量
  • 文章访问数:  495
  • HTML全文浏览量:  300
  • PDF下载量:  115
  • 被引次数: 16
出版历程
  • 收稿日期:  2022-07-05
  • 修回日期:  2022-11-14
  • 网络出版日期:  2022-11-21
  • 刊出日期:  2023-08-21

目录

/

返回文章
返回