Multi-core Chip Dynamic Power Management Framework Based on Reinforcement Learning
-
摘要: 多核芯片可以为移动智能终端提供强大算力,但功耗和温度问题始终制约着其性能表现。针对这个问题,该文提出了一种基于强化学习的多核芯片动态功耗管理框架。首先,建立了一个基于GEM5的多核芯片动态电压频率调节仿真系统。然后,采用了一种考虑CMOS芯片物理特性的功耗模型构建方法以实现在线实时功耗监测。最后,设计了一种面向多核芯片的梯度式奖励方法,并使用深度Q神经网络(Deep Q Network, DQN)算法对多核芯片的功耗管理策略进行学习。仿真结果表明,相比于常规的Ondemand,MaxBIPS方案,该文所提出的框架分别实现了2.12%, 4.03%的多核芯片计算性能提升。Abstract: Multi-core chips can provide mighty computing capability for mobile intelligent terminals, but their performance is constraint by thermal and power issues. For this problem, this paper proposes a multi-core chip dynamic power management framework based on reinforcement learning. First, based on GEM5, a dynamic voltage and frequency scaling simulation system of the multi-core chips is established. Second, a chip power model characterization method is adopted, which takes CMOS physical characteristics into consideration to realize online real-time power monitoring. Finally, a gradient reward method for the multi-core chips is designed, and a Deep Q Network (DQN) algorithm is used to learn the power management strategy for the multi-core chips. Compared with conventional Ondemand and MaxBIPS schemes, the simulation results show that the proposed framework achieves 2.12% and 4.03% improvement in computational performance of the multi-core chips respectively.
-
1. 引言
近年来,人工智能和物联网技术快速发展,移动智能终端(如车载计算平台、智能手机、平板等)的数量急剧增长。随之,各种应用服务的爆炸性激增对计算能力与能效提出了严格的要求[1-4]。虽然智能终端搭载的多核处理器的处理能力越来越好,但终端严苛的散热设计功耗(Thermal Design Power)不允许芯片长时间运行在高发热的高性能模式[5]。这极大地限制了多核芯片的计算性能和智能终端的运行效率。
为了解决上述问题,基于动态电压频率调节(Dynamic Voltage and Frequency Scaling, DVFS)的多核芯片动态功耗管理技术作为一种可行的方案被提出[6-9]。DVFS[10,11]可以在芯片运行期间实时地、独立地调节内核的工作电压和频率大小,以控制芯片的功耗与发热,因此大多数多核处理器都支持该技术。动态功耗管理技术尝试找到一种DVFS调节策略,在满足智能终端温度要求的同时,使多核芯片发挥出最高的计算性能,从而提供高效顺畅的用户体验。
目前,已有许多关于智能终端中多核芯片动态功耗管理问题的研究。文献[12]根据CMOS电路功耗与频率间的3次方关系、BIPS(Billion Instructions Per Second)与频率间的线性关系,预测每个内核在不同电压频率下的功耗和BIPS,再以芯片的BIPS为优化目标进行实时DVFS。文献[13]将芯片性能建模为线性依赖于频率,然后将功耗管理表述为线性规划问题,通过单纯形法求解功耗管理策略。文献[14]通过建立温度模型计算芯片的功耗预算,将性能最大化转换成一个凸优化问题,然后利用梯度寻找合适的DVFS设置。文献[15,16]讨论了将强化学习中的算法应用于动态功耗管理的可能性,在芯片温度受限的场景下,以优化芯片性能为目标,提出了基于强化学习Q-Learning算法的动态功耗管理技术。但此类算法需要对环境状态进行离散化,因此对存储空间的需求会随着芯片核数的增加而爆炸式增长。
综上所述,面向智能终端设计高性能的多核芯片动态功耗管理技术已经受到了国内外学者的广泛关注与研究,已有工作[12-14]依赖于精确的功耗、温度、性能模型,需要大量且复杂的计算,这与其所分配的有限的计算资源相冲突,因此不易得到最优的DVFS调节策略;并且这些定制化的模型可迁移性较弱,难以被广泛应用于不同的智能终端。同时[15,16]存在存储爆炸的问题,无法满足芯片内核数量的增长趋势。在智能终端不断迭代与芯片内核数不断增长的今天,寻找一种灵活的多核芯片动态功耗管理技术将具有重要研究意义。因此,本文以优化智能终端中多核芯片性能为目标,构建了一个基于GEM5的多核芯片动态电压频率调节仿真平台,在此平台基础上研究智能终端中安全温度限制引起的多核芯片性能优化问题。本文主要研究工作如下:
(1)首先建立一个基于GEM5的多核芯片动态电压频率调节仿真平台,用于仿真验证。
(2)然后提出一种多核芯片动态功耗管理框架,该框架包含一种多核芯片实时功耗模型的建模方法,以及一种基于DQN的动态功耗管理算法。该框架将智能终端中安全温度限制引起的多核芯片性能优化问题视为一个马尔可夫决策过程,可以在周期时间节点上获取芯片当前的状态信息,然后为每个内核调节合适的电压频率,以达到优化计算性能的目的。
(3)最后将本文所提动态功耗管理框架应用到两核Cortex-A57芯片系统上,通过仿真验证了框架的有效性,可以提升2%~4%的芯片计算性能。
2. 系统与问题描述
2.1 系统
如图1所示,本文基于GEM5建立了一个多核芯片动态电压频率调节仿真系统。GEM5[17]是一款开源的计算机架构模拟器,可供自由配置处理器、存储系统等模块以模拟出不同结构的计算系统。此外,GEM5还支持对处理器进行DVFS,因此被广泛应用于计算机功耗与电源管理相关的研究。图1系统以一个
N 核的处理器芯片作为底层计算硬件,搭载有操作系统,可以运行任意应用程序,定义芯片的安全温度为Tlimit ,内核集合为N={1,2,⋯,N} 。内核可以工作在M 个不同的电压频率等级下,定义内核的电压频率等级集合为M={1,2,⋯,M} 。假设系统运行应用程序的过程可以划分为τ 个时隙,时隙j∈J={1,2,⋯,τ} ,每个时隙的长度为Δ 。操作系统下的动态功耗管理流程为:首先获取芯片每个时隙j 内的平均功耗Pj 以及时隙j 末的瞬时温度Tj ,然后在下一个时隙j+1 初调节内核的电压频率至VFj+1 。其中,功耗Pj 和瞬时温度Tj 分别使用McPAT[18],Hotspot[19]仿真,以获得参考功耗及参考温度。2.2 问题描述
为了对芯片的计算性能进行优化,本文以最大化芯片在时间
twork=τ×Δ 内执行的总指令数Itotal 为目标。因此智能终端中多核芯片性能优化问题可以表示为MaxItotal =j=τ∑j=1Ij=j=τ∑j=1f(VFj)=j=τ∑j=1f(π(Pj−1,Tj−1)) (1) 式(1)为优化目标函数,其中
Ij 表示芯片在时隙j 内所执行的指令数;f 表示芯片在不同电压频率设置下的计算能力;π 表示一种功耗管理策略,可以根据Pj−1,Tj−1 作出电压频率调节。3. 动态功耗管理框架
图2展示了本文提出的基于强化学习理论的多核芯片动态功耗管理框架。考虑到市面上的芯片一般不含内置的功率计,无法满足本文框架对实时功耗获取的需求,因此该框架包含两个主要工作:(1)构建芯片的实时功耗模型;(2)训练功耗管理算法。首先,该框架通过在芯片上运行基准测试程序,采集芯片的内部数据与参考功耗分别作为自变量和预测量建立功耗模型。然后使用功耗模型和Hotspot组成功耗管理算法的强化学习环境。最后,使用本文所设计的动态功耗管理算法在环境中训练出功耗管理策略,用于优化芯片在安全温度限制下的性能。
4. 功耗模型
当处理器芯片执行任务程序时,会触发各种硬件事件:如数据内存访问、指令缓存访问等。不同硬件事件的触发将产生不同的动态功耗[20,21]。因此本文将借助性能计数器(Performance Monitoring Counters),通过采集各种硬件事件的触发次数来构建功耗模型。
考虑到动态功耗管理所分配的计算资源有限,本文采用了一种基于拟合优度
R2 的硬件事件筛选算法[22],可以从上百种硬件事件中筛选出与芯片功耗相关性最强的事件集合E 。从而可以在保证模型精度的同时,压缩模型的计算复杂度。筛选算法具体如下:步骤1 初始化事件集合
E=∅ ,E 包含被选中的硬件事件;步骤2 初始化拟合优度集合
R=∅ ;步骤3 从未选中事件中依次取出一个硬件事件
e ,加入集合E 中:E=E+e ;步骤4 以事件集合
E 作为自变量,通过建立回归模型计算E 与芯片功耗之间的拟合优度R2E ;步骤5
R=R+R2E ;步骤6
E=E−e ;步骤7 重复步骤3—步骤6,直至遍历所有未选中事件;
步骤8
E=arc(maxER) ,更新E 为最大R2E 所对应的事件集;步骤9 重复步骤3—步骤8,直至
maxR 满足精度要求。将该算法应用于图1(
N 核Cortex-A57处理器)系统上的结果如图3所示,其中横轴表示每次通过筛选算法迭代出来的被选中硬件事件;纵轴表示集合E 在依次加入被选中硬件事件后与参考功耗之间的拟合优度。图3显示当E={CPU\_CYCLES} 时,R2=0.61 ;当E={CPU\_CYCLES,BUS\_ACCESS} 时,R2=0.76 ···完成筛选后的事件集合E 将包含9种硬件事件,与功耗之间的拟合优度接近于1。基于
E 中的硬件事件,本文结合CMOS电路的功耗特征[22-24]提出了图1系统中N核芯片的多元线性回归功耗模型:Ptotal=∑e∈E8βe×nume×V2DD(core0)×fclk(core0)+∑e∈E8βe×nume×V2DD(core1)×fclk(core1)+⋯∑e∈E8βe×nume×V2DD(coreN)×fclk(coreN)+β0X67×num0X67×V2DD(system)×fclk(system)+β0 (2) 式(2)中,
Ptotal 表示芯片功耗;E8 代表除事件0X67以外的8种被选中事件的集合;β 代表模型的回归系数;e 代表具体事件;num 代表事件的触发次数;VDD(coreN) 表示内核N 的工作电压;fclk(coreN) 表示内核N 的工作频率;VDD(system) 表示核外共享部件的工作电压;fclk(system) 表示核外共享部件的工作频率;β0 为截距项。对于图1系统中的芯片,
E8 中的事件在GEM5中由各个内核独立计数,因此采用∑e∈E8βe×nume×V2DD(coreN)×fclk(coreN) 表示E8 在不同内核中产生的动态功耗。0X67事件的触发次数在GEM5中被统一计数,因此单独采用β0X67×num0X67×V2DD(system)×fclk(system) 表示0X67事件产生的动态功耗。本文在图1(2核Cortex-A57处理器)系统上应用了上述功耗建模算法与公式,通过采集芯片在不同电压频率等级下运行程序时的硬件事件计数值与参考功耗来建立功耗模型。所采集的数据样本,按照0.85:0.15的比例随机划分为训练集与测试集。训练集用于训练功耗模型,测试集用于检验模型的质量。本文基于式(2)在训练集上进行多元线性回归[25]。然后在测试集上对模型质量进行检验,图4展示了模型在测试集上的表现,其中横轴表示绝对百分比误差区间,纵轴表示模型预测功耗与参考功耗之间的绝对百分比误差在各区间的分布情况。虽然图中有少数较大的误差结果出现,但这往往发生在参考功耗较小的情况下,导致即使很小的模型预测误差值也会产生较大的绝对百分比误差。
MAPE=1NN∑I=1|ˆPI−PIPI| (3) 功耗模型在测试集上的平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)使用式(3)进行计算,其中
ˆPI 表示模型的预测功耗,PI 表示参考功耗,N表示样本数量。最终功耗模型对测试集的MAPE为5.972%。5. 动态功耗管理算法设计
5.1 强化学习概述
强化学习是机器学习中的一个子领域,它探索如何基于外部环境而行动以取得最大化的预期利益[26],可被用于解决安全温度限制引起的多核芯片计算性能优化问题。因此本文采用强化学习中的算法进行动态功耗管理,接下来将介绍强化学习的理论知识。强化学习是指将智能体放置于环境当中,智能体根据环境状态和行动策略不断采取动作,在此期间学习环境的反馈并优化自己的行为策略,以实现长期累积奖励最大化的过程[27]。强化学习所解决的大多数问题都可以用马尔可夫决策过程(Markov Decision Process, MDP)来表述。本文多核芯片性能优化问题的MDP三要素
<S,A,R> 可以表述为:状态空间
S :把芯片的功耗与温度设置为环境状态,即sj=(Pj,Tj)∈S 。动作空间
A :单个内核具有M 个频率、电压等级,因此N 核芯片有MN 个可配置的频率、电压等级组合。我们将这MN 个频率、电压等级组合定义为智能体可采取的动作空间A 。环境奖励
R :根据式(1),MDP的优化目标是在运行程序期间最大化N 核芯片的累计指令执行数,且温度不能超过Tlimit ,因此奖励与指令执行数、温度有关。针对优化目标,本文提出了一种梯度式奖励方法:步骤1 定义智能体从零时刻开始对芯片进行DVFS,直至终止时刻的过程为一幕(Episode);终止时刻的判定条件为芯片温度超过
Tlimit 或芯片运行时长达到twork ;步骤2 记
N 核芯片以中等性能在安全温度下运行twork 的累计指令执行数为Ibench ;步骤3 一幕开始;
步骤4 在每个DVFS的时间节点计算当前
c 时刻芯片所执行的累计指令数Iadd=∑j=cj=1Ij ;步骤5 当
Iadd>Ibench+g0 ,奖励智能体r0 ;当Iadd>Ibench+g1 ,奖励智能体r1 ···当Iadd>Ibench+gn ,奖励智能体rn ; 一旦芯片温度Tc>Tlimit ,奖励为0;步骤6 重复步骤4—步骤5,直至一幕结束。
其中
g0 ,g1 , ···,gn 是集合G 中的元素,本文称G 为指令数梯度,G 中的元素为实数。r0 ,r1 , ···,rn 是集合R 中的元素,本文称R 为奖励梯度,R 中的元素为正实数。G 与R 的关系如表1所示。表 1 梯度式奖励中等性能指令
执行数(百万条)指令数梯度G
(百万条)奖励梯度R Ibench +g0 r0 +g1 r1 ⋮ ⋮ +gn rn 本文希望通过设置上述奖励方法作为环境奖励来引导智能体进行学习。当累计指令执行数达到一定数量时,智能体将获得相应的奖励,受此影响,智能体会基于该奖励进一步更新策略以获得更高的奖励。学习能否成功取决于梯度设置是否合理,例如将
g0 设置得过大,那么智能体可能在“探索”阶段拿不到奖励,导致其始终无法进行有效学习。因此本文将结合实验设置合适的梯度,从而引导智能体逐步改善策略,达到优化芯片性能的目的。5.2 基于DQN的动态功耗管理算法
在本文提出的多核芯片性能优化问题中,芯片频率、电压等级的调整不仅影响当前性能,还会对下一时刻的状态产生影响。因此本文采用DQN算法对问题进行求解。DQN是深度神经网络与Q-learning的结合[28]。其中Q-learning是强化学习中一种经典的离轨策略下的时序差分算法[29],Q代表在环境状态
sj 下采取动作aj 的价值。Q值的学习基于智能体与环境的不断交互。智能体根据环境奖励rj+1 对Q值进行更新的公式为:Q(sj,aj)←Q(sj,aj)+ α×[rj+1+γ×maxaj+1Q(sj+1,aj+1)−Q(sj,aj)] 。Q-learning的学习过程包含3个主要步骤:第1步,任意初始化一张Q表,纵轴为状态空间,横轴为动作空间。第2步,智能体基于ε−greedy 策略,以ε 的概率随机采取动作,以1−ε 的概率采取Q值最大的动作。第3步,智能体根据环境的即时奖励,更新Q值表。重复第2,3步直至Q值表收敛,此时智能体也就完成了最佳行为策略的学习。然而Q值表是离散环境状态到离散动作的映射,其存储规模将随着工程的复杂化而迅速膨胀。DQN通过引入深度神经网络来替代Q值表,解决了在高维连续环境状态下Q值表庞大的问题。本文基于DQN的动态功耗管理算法如下:步骤1 初始化
ε 参数,设置折扣率γ ;根据图1系统确定动作空间A ,安全温度Tlimit ,芯片工作时间twork ,时隙长度Δ ;设置最大训练幕数Nepi ,以及一幕中电压频率等级调整的最大次数τ=twork/Δ ;定义训练阈值Ntra ,样本批次大小Nbat ,网络更新阈值Nupd ;步骤2 随机初始化行为Q值神经网络与目标Q值神经网络相同;
步骤3 训练幕数
nepi=0 ;网络训练次数nupd=0 ;步骤4
nepi=nepi+1 ;j=−1 ;设置芯片初始状态s0=(P0,T0) ;步骤5
j=j+1 ;步骤6 智能体观察芯片当前状态
sj∈S ,根据ε−greedy 策略和行为Q值神经网络采取行动aj∈A ,然后获得梯度式奖励rj+1 与新的状态sj+1 ;将样本数据(sj,aj,rj+1,sj+1) 保存到历史样本库中;步骤7 当样本库中的数量达到训练阈值
Ntra 时,随机抽取Nbat 个样本训练行为Q值神经网络,nupd=nupd+1 ;步骤8 当
nupd%Nupd=Nupd−1 时,将行为Q值神经网络的权重参数赋值给目标Q值神经网络;步骤9 重复步骤5—步骤8,直至
j=τ−1 或Tj>Tlimit ;步骤10 重复步骤4—步骤9,直至
nepi=Nepi ;参数
ε 将随着步骤4中训练幕数nepi 的增大而衰减,这可以使得智能体在训练前期充分探索环境,在训练后期充分利用所学经验,有利于寻找全局最优解。上述算法的训练框架与流程如图5所示,其中,考虑到样本是由智能体与环境交互所产生的,样本之间存在相关性,因此本文采用了一种如图6所示的历史回放机制,建立了一个历史样本库用于存放样本,然后从中随机抓取网络训练所需的样本,打乱样本之间的相关性,从而满足神经网络训练对样本的独立同分布性要求。6. 仿真结果
本节将利用动态电压频率调节仿真系统对所提出的动态功耗管理框架进行验证,将本文基于DQN算法的动态功耗管理框架表示为“DDPMF (DQN-Dynamic Power Management Framework)”,并与另外两种传统方案进行比较:
MaxBIPS[12]:该方案由IBM提出,它首先建立芯片功耗与工作频率的3次方模型、BIPS与工作频率的线性模型;然后使用模型预测每个内核在不同电压频率等级下的功耗和BIPS,以最大化BIPS为目标动态调节电压频率等级,同时满足芯片的整体功耗预算。
Ondemand[30]:该方案是Linux默认的功耗管理方案,它定义芯片的负载为总周期数减去内核闲置周期数,再除以总周期数。设有超参数
U∈[0,1] ,在功耗预算内,当芯片在过去一段时间Δ 内的负载大于U 时,将调整电压频率至最高等级;当负载小于U 时,将对内核进行降频。图1仿真系统的仿真参数设置如下:采用ARM v8-A Cotex-A57内核,内核的可配置电压频率等级数
M=3 ,内核总数N=2 。芯片安全温度Tlimit= 70 °C;工作时长twork=9 s ;电压频率调节间隔Δ=30 ms 。DDPMF中动态功耗管理算法的训练参数设置如下:折扣因子γ=0.99 ;ε 的初始值为0.9,衰减速率为–0.0000356,最小值为0.01;Nepi=25000 ;Ntra=1000 ;Nbat=64 ;Nupd=1000 ;环境奖励梯度设置如表2所示。表 2 环境奖励梯度中等性能指令执行数
(百万条)指令数梯度G
(百万条)奖励梯度R 8322 –222 +1 –122 +10 –68 +100 –22 +1000 +28 +10000 +78 +100000 图7展示了DDPMF中动态功耗管理算法的训练过程,记录了智能体累积得分随训练幕数的变化情况。在第0到16000幕左右时,智能体只能获得近似0分的奖励,此时仍处于探索状态;从第16000左右幕开始,智能体取得了较为明显的奖励,说明其已经通过探索发现了一条奖励路径;在接下来的几千幕中,智能体在表2梯度的引导下,不断改善自身行动策略,使每幕的得分不断提高,在20000幕附近已经可以较稀疏地获得高分,直到24000幕左右时基本每幕都能稳定获得高分,说明算法已经收敛,找到了最优的动态功耗管理策略
π′ 。图8(a)展示了仿真系统采用
π′ 策略与其他两种动态功耗管理方案相比,芯片在同等工作时长下运行不同测试程序[31]时执行的指令总数的情况。可以看出π′ 策略的指令执行总数比“MaxBIPS”, “Ondemand”方案的都更多。图8(b)展示了π′ 策略分别相较于“MaxBIPS”, “Ondemand”方案在指令执行总数方面的百分比提升。可以看出π′ 策略相对于Ondemand最高可以提升2.28%,平均提升了2.12%;π′ 策略相对于“MaxBIPS”最高可以提升5.02%,平均提升了4.03%。7. 结束语
本文针对移动智能终端中安全温度限制引起的多核芯片计算性能优化问题,提出了一种动态功耗管理框架(DDPMF)。首先介绍了一种功耗建模方法,用于获取CMOS多核芯片的实时功耗。然后,设计了一种基于DQN的动态功耗管理算法,结合有效的梯度式环境奖励进行训练,得到了最优的多核芯片动态功耗管理策略。仿真结果显示,本文DDPMF与其他方案相比,能够有效实现多核芯片的计算性能优化。
-
表 1 梯度式奖励
中等性能指令
执行数(百万条)指令数梯度G
(百万条)奖励梯度R Ibench +g0 r0 +g1 r1 ⋮ ⋮ +gn rn 表 2 环境奖励梯度
中等性能指令执行数
(百万条)指令数梯度G
(百万条)奖励梯度R 8322 –222 +1 –122 +10 –68 +100 –22 +1000 +28 +10000 +78 +100000 -
[1] PAGANI S, MANOJ P D S, JANTSCH A, et al. Machine learning for power, energy, and thermal management on multi-core processors: A survey[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2020, 39(1): 101–116. doi: 10.1109/TCAD.2018.2878168 [2] JIANG Honglan, SANTIAGO F J H, MO Hai, et al. Approximate arithmetic circuits: A survey, characterization, and recent applications[J]. Proceedings of the IEEE, 2020, 108(12): 2108–2135. doi: 10.1109/JPROC.2020.3006451 [3] CHEN Chuangtao, QIAN Weikang, IMANI M, et al. PAM: A piecewise-linearly-approximated floating-point multiplier with unbiasedness and configurability[J]. IEEE Transactions on Computers, 2022, 77(10): 2473–2486. [4] 李光辉, 周辉, 胡世红. 面向移动边缘计算中多应用服务的虚拟机部署算法[J]. 电子与信息学报, 2022, 44(7): 2431–2439. doi: 10.11999/JEIT210415LI Guanghui, ZHOU Hui, and HU Shihong. Virtual machine placement algorithm for supporting multiple applications in mobile edge computing[J]. Journal of Electronics &Information Technology, 2022, 44(7): 2431–2439. doi: 10.11999/JEIT210415 [5] XIE Qing, KIM J, WANG Yanzhi, et al. Dynamic thermal management in mobile devices considering the thermal coupling between battery and application processor[C]. Proceedings of 2013 IEEE/ACM International Conference on Computer-aided Design, San Jose, USA, 2013: 242–247. [6] CAI Ermao and MARCULESCU D. TEI-Turbo: Temperature effect inversion-aware turbo boost for finfet-based multi-core systems[C]. Proceedings of 2015 IEEE/ACM International Conference on Computer-Aided Design, Austin, USA, 2015: 500–507. [7] HAJIAMINI S, SHIRAZI B, CRANDALL A, et al. A dynamic programming framework for DVFS-based energy-efficiency in multicore systems[J]. IEEE Transactions on Sustainable Computing, 2020, 5(1): 1–12. doi: 10.1109/TSUSC.2019.2911471 [8] CAO Yuan, SHEN Tianhao, ZHANG Li, et al. An efficient and flexible learning framework for dynamic power and thermal Co-management[C]. Proceedings of 2020 ACM/IEEE Workshop on Machine Learning for CAD, Reykjavik, Iceland, 2020: 117–122. [9] MENG Ke, JOSEPH R, DICK R P, et al. Multi-optimization power management for chip multiprocessors[C]. Proceedings of 2008 Parallel Architectures and Compilation Techniques (PACT), Toronto, Canada, 2008: 177–186. [10] HOWARD J, DIGHE S, VANGAL S R, et al. A 48-Core IA-32 processor in 45 nm CMOS using on-die message-passing and DVFS for performance and power scaling[J]. IEEE Journal of Solid-State Circuits, 2011, 46(1): 173–183. doi: 10.1109/JSSC.2010.2079450 [11] ZHUO Cheng, LUO Shaoheng, GAN Houle, et al. Noise-aware DVFS for efficient transitions on battery-powered IoT devices[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2020, 39(7): 1498–1510. doi: 10.1109/TCAD.2019.2917844 [12] ISCI C, BUYUKTOSUNOGLU A, CHER C Y, et al. An analysis of efficient multi-core global power management policies: Maximizing performance for a given power budget[C]. Proceedings of the 39th Annual IEEE/ACM International Symposium on Microarchitecture, Orlando, USA, 2006: 347–358. [13] TEODORESCU R and TORRELLAS J. Variation-aware application scheduling and power management for chip multiprocessors[C]. Proceedings of 2008 International Symposium on Computer Architecture, Beijing, China, 2008: 363–374. [14] BHAT G, SINGLA G, UNVER A K, et al. Algorithmic optimization of thermal and power management for heterogeneous mobile platforms[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2018, 26(3): 544–557. doi: 10.1109/TVLSI.2017.2770163 [15] GE Yang and QIU Qinru. Dynamic thermal management for multimedia applications using machine learning[C]. Proceedings of the 48th ACM/EDAC/IEEE Design Automation Conference, San Diego, USA, 2011: 95–100. [16] HUANG Hui, LIN Man, YANG L T, et al. Autonomous power management with double-Q reinforcement learning method[J]. IEEE Transactions on Industrial Informatics, 2020, 16(3): 1938–1946. doi: 10.1109/TII.2019.2953932 [17] BINKERT N, BECKMANN B, BLACK G, et al. The gem5 simulator[J]. ACM SIGARCH Computer Architecture News, 2011, 39(2): 1–7. doi: 10.1145/2024716.2024718 [18] LI Sheng, AHN J H, STRONG R D, et al. McPAT: An integrated power, area, and timing modeling framework for multicore and manycore architectures[C]. Proceedings of the 42nd Annual IEEE/ACM International Symposium on Microarchitecture, New York, USA, 2009: 469–480. [19] HUANG Wei, STAN M R, and SKADRON K. Parameterized physical compact thermal modeling[J]. IEEE Transactions on Components and Packaging Technologies, 2005, 28(4): 615–622. doi: 10.1109/TCAPT.2005.859737 [20] BERTRAN R, GONZALEZ M, MARTORELL X, et al. Decomposable and responsive power models for multicore processors using performance counters[C]. Proceedings of the 24th ACM International Conference on Supercomputing, Tsukuba, Japan, 2010: 147–158. [21] LI Yaguang, ZHUO Cheng, and ZHOU Pingqiang. A cross-layer framework for temporal power and supply noise prediction[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2019, 38(10): 1914–1927. doi: 10.1109/TCAD.2018.2871820 [22] WALKER M J, DIESTELHORST S, HANSSON A, et al. Accurate and stable run-time power modeling for mobile and embedded CPUs[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2017, 36(1): 106–119. doi: 10.1109/TCAD.2016.2562920 [23] KIM N S, AUSTIN T, BAAUW D, et al. Leakage current: Moore's law meets static power[J]. Computer, 2003, 36(12): 68–75. doi: 10.1109/MC.2003.1250885 [24] BHAT G, GUMUSSOY S, and OGRAS U Y. Power-temperature stability and safety analysis for multiprocessor systems[J]. ACM Transactions on Embedded Computing Systems, 2017, 16(5s): 145. doi: 10.1145/3126567 [25] KUTNER M H, NACHTSHEIM C J, and NETER J. Applied Linear Regression Models[M]. 4th ed. Chicago: McGraw-Hill/Irwin, 2004: 136–178. [26] SUTTON R S and BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Bradford: Bradford Book, 2018: 1–13. [27] TAN Bin, PENG Yinyin, and LIN Jiugen. A local path planning method based on Q-learning[C]. Proceedings of 2021 International Conference on Signal Processing and Machine Learning, Stanford, USA, 2021: 80–84. [28] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236 [29] WATKINS C J C H and DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3): 279–292. doi: 10.1007/BF00992698 [30] PALLIPADI V and STARIKOVSKIY A. The ondemand governor[C]. Proceedings of 2006 Linux Symposium, Ottawa, Canada, 2006: 215–230. [31] BIENIA C. Benchmarking modern multiprocessors[D]. [Ph. D. dissertation]. Princeton University, 2011. 期刊类型引用(49)
1. 张宏,周大伟,陆丽,康小东. 基于改进的樽海鞘群算法的永磁同步电机多目标优化设计. 电机与控制应用. 2025(02): 221-230 . 百度学术
2. 徐良,田青云,文成,张海波,郭晶晶. 基于改进樽海鞘群算法的测试数据自动生成. 信息技术与信息化. 2024(01): 117-121 . 百度学术
3. 李辉,殷文明. 探索者变异樽海鞘算法及其应用. 数学的实践与认识. 2024(03): 151-159 . 百度学术
4. 蒙淑娇,晋良念. 基于改进鲸鱼优化的地面短基线单站无源定位方法. 无线电工程. 2024(07): 1739-1748 . 百度学术
5. 曹宁,严心娥,徐根祺,许又文,张正勃,杜倩云. 基于DEFA-LSSAR的水利工程边坡力学参数预测模型. 计算机与现代化. 2024(07): 106-111 . 百度学术
6. 史红伟,左越. 基于LPNN的无源ML-TDOA估计. 沈阳工业大学学报. 2024(06): 832-839 . 百度学术
7. 肖剑,刘经纬,胡欣,齐小刚. 基于改进非洲秃鹫算法的TDOA-AOA定位. 吉林大学学报(工学版). 2024(12): 3558-3567 . 百度学术
8. 陈一馨,张婷,刘永刚,陈晶. 基于改进樽海鞘群算法的提梁机主梁轻量化设计方法. 东北大学学报(自然科学版). 2023(02): 223-232 . 百度学术
9. 牛昊一 ,吴维敏 ,章庭棋 ,沈微 ,张涛 . 自适应樽海鞘群算法求解考虑运输时间的柔性作业车间调度. 浙江大学学报(工学版). 2023(07): 1267-1277 . 百度学术
10. 问轲,林晶,张学昌,刘永跃. 混沌策略和非线性收敛因子的核参数寻优算法. 机械科学与技术. 2023(09): 1490-1501 . 百度学术
11. 丁美芳,吴克晴,肖鹏. 多策略融合的黄金正弦樽海鞘群算法. 南京信息工程大学学报(自然科学版). 2023(06): 662-675 . 百度学术
12. 叶智慧,吴红梅,王佩,熊伟,郭颖,陈略,董志源. 基于量子海鸥算法的运载火箭回收舱段时差定位方法. 上海航天(中英文). 2023(06): 121-135 . 百度学术
13. 张铸,张仕杰,饶盛华,王静袁. 基于自适应正态云模型的引力樽海鞘群算法. 控制与决策. 2022(02): 344-352 . 百度学术
14. 韦子辉,王世昭,叶兴跃,马英杰,李小阳,方立德. 基于超宽带的TDOA相邻单元协同定位技术. 电子测量技术. 2022(01): 77-83 . 百度学术
15. 赵玉超,袁宏拓,孙铭. 基于单步加权最小二乘的战场集结定位算法. 河北科技大学学报. 2022(01): 42-49 . 百度学术
16. 高岳林,杨钦文,王晓峰,李嘉航,宋彦杰. 新型群体智能优化算法综述. 郑州大学学报(工学版). 2022(03): 21-30 . 百度学术
17. 马一鸣,石志东,赵康,贡常磊,单联海. 基于改进樽海鞘群算法的到达时间差定位. 上海大学学报(自然科学版). 2022(02): 238-249 . 百度学术
18. 段绍米,罗会龙,刘海鹏. 人群搜索和樽海鞘群的混合算法优化PID参数. 系统仿真学报. 2022(06): 1230-1246 . 百度学术
19. 方立德,王世昭,解云龙,李萌旭,韦子辉. 基于改进粒子群的TDOA三维定位解算方法. 现代电子技术. 2022(13): 45-50 . 百度学术
20. 汤安迪,韩统,徐登武,周欢,谢磊. 使用高斯分布估计策略的改进樽海鞘群算法. 系统工程与电子技术. 2022(07): 2229-2240 . 百度学术
21. 彭石燕,郑洪清. 复数编码的樽海鞘群算法及其应用. 广西民族大学学报(自然科学版). 2022(02): 81-86 . 百度学术
22. 范纯龙,童航. 樽海鞘算法在测试用例约简问题中的应用. 电脑编程技巧与维护. 2022(10): 8-10+15 . 百度学术
23. 余修武,黄露平,刘永,李佩. 融合柯西折射反向学习和变螺旋策略的WSN象群定位算法. 控制与决策. 2022(12): 3183-3189 . 百度学术
24. 刘树东,梁婷蓉,王燕,张艳. 一种提高水下目标被动定位性能的两步定位法. 天津城建大学学报. 2022(06): 460-466 . 百度学术
25. 刘小龙,许岩,徐维军. 基于统计引导和多项式差分学习的樽海鞘优化算法. 运筹与管理. 2021(01): 43-49 . 百度学术
26. 王振亚,姚立纲,蔡永武,张俊. 基于熵-流特征和樽海鞘群优化支持向量机的故障诊断方法. 振动与冲击. 2021(06): 107-114 . 百度学术
27. 刘景森,袁蒙蒙,李煜. 基于改进樽海鞘群算法求解工程优化设计问题. 系统仿真学报. 2021(04): 854-866 . 百度学术
28. 魏鹏飞,樊小朝,史瑞静,王维庆,闫亚东. 基于互补式集合经验模态分解和SSA-ELM的短期风电功率预测. 水力发电. 2021(05): 116-120 . 百度学术
29. 赵忠凯,刘楯,黄湘松. 无人机编队时差定位时的空间布局分析. 应用科技. 2021(02): 12-18+41 . 百度学术
30. 韩超杰,郝玉然,刘亚飞. 基于SSA-Otsu的彩色图像多阈值分割研究. 现代计算机. 2021(10): 108-111 . 百度学术
31. 陈连兴,牟永敏. 一种改进的樽海鞘群算法. 计算机应用研究. 2021(06): 1648-1652 . 百度学术
32. 蒋美琪,杨兴,罗聪敏. 基于反向学习与混合位置中心的樽海鞘算法. 西华大学学报(自然科学版). 2021(01): 17-21+74 . 百度学术
33. 杨兴,郭明昊,方霞,祝忠明,蒋美琪. 基于天牛须搜索自适应的樽海鞘算法. 计算机技术与发展. 2021(06): 1-6 . 百度学术
34. 唐菁敏,郑锦文,曲文博. 基于改进自适应乌鸦搜索算法的无源定位. 重庆邮电大学学报(自然科学版). 2021(03): 372-377 . 百度学术
35. 卓然,王未卿. 混沌映射与动态学习的自适应樽海鞘群算法. 计算机工程与设计. 2021(07): 1963-1972 . 百度学术
36. 刘景森,袁蒙蒙,左方. 面向全局搜索的自适应领导者樽海鞘群算法. 控制与决策. 2021(09): 2152-2160 . 百度学术
37. 田洪舟,陈思溢,黄辉先. 基于改进樽海鞘群算法的无线传感器网络节点定位. 传感器与微系统. 2021(09): 139-141+145 . 百度学术
38. 唐铁斌,刘炜. 基于改进樽海鞘群算法的SDN控制器部署算法. 计算机应用与软件. 2021(12): 291-297 . 百度学术
39. 孙光才,王裕旗,高昭昭,江帆,邢孟道,保铮. 一种基于短合成孔径的双星干涉精确定位方法. 电子与信息学报. 2020(02): 472-479 . 本站查看
40. 张文彬. 基于天体运动更新机制的改进樽海鞘群算法. 上海电力大学学报. 2020(02): 195-200 . 百度学术
41. 陈忠云,张达敏,辛梓芸,张绘娟,闫威. 混沌精英质心拉伸机制的樽海鞘群算法. 计算机工程与应用. 2020(10): 44-50 . 百度学术
42. 林国营,卢世祥,郭昆健,高赐威,冯小峰. 基于主从博弈的电网公司需求响应补贴定价机制. 电力系统自动化. 2020(10): 59-68 . 百度学术
43. 王明超,董佳圆,李继影,高磊,聂永辉. 基于ISSA的STATCOM模型参数解耦辨识研究. 东北电力大学学报. 2020(01): 81-89 . 百度学术
44. 张达敏,陈忠云,辛梓芸,张绘娟,闫威. 基于疯狂自适应的樽海鞘群算法. 控制与决策. 2020(09): 2112-2120 . 百度学术
45. 陈忠云,张达敏,辛梓芸. 正弦余弦算法的樽海鞘群算法. 计算机应用与软件. 2020(09): 209-214 . 百度学术
46. 范千,陈振健,夏樟华. 一种基于折射反向学习机制与自适应控制因子的改进樽海鞘群算法. 哈尔滨工业大学学报. 2020(10): 183-191 . 百度学术
47. 马一鸣,石志东,赵康,贡常磊,单联海. 基于改进哈里斯鹰优化算法的TDOA定位. 计算机工程. 2020(12): 179-184 . 百度学术
48. 孙铭阳. 基于SSA-PNN的矿井提升机主轴装置故障诊断. 无线互联科技. 2019(09): 139-141+144 . 百度学术
49. 王丽,康飞. 基于樽海鞘群优化算法的裂缝图像分割. 电脑知识与技术. 2019(25): 223-224 . 百度学术
其他类型引用(48)
-