
Citation: | Bo HU, Qiyao WANG, Hui FENG, Lingbing LUO. Adaptive Sensor Scheduling Algorithm for Target Tracking in Wireless Sensor Networks[J]. Journal of Electronics & Information Technology, 2018, 40(9): 2033-2041. doi: 10.11999/JEIT171154 |
无线传感器网络(Wireless Sensor Networks, WSN)是由一系列能够对环境做出感知和观测的小型装置通过无线通信组成的自组织网络。由于无线传感器网络成本低廉、易于部署,使得其在监控、安防、交通、定位、医疗等军用和民用领域[1–3]发挥了越来越重要的作用。
目标跟踪[4–7]是无线传感器网络的一个重要应用场景。在实际应用中,传感器所需能量通常由电池提供,对整个传感器网络的电池进行充电或更换十分不易。如果所有传感器在所有时刻都开启观测,虽然可以得到较高的跟踪精度,但同时也会带来较大的能量开销。为了延长传感器网络的工作时间,通常需对传感器节点进行自适应的节点调度[4,5],或称为节点规划[7]、节点选择[8]或传感器分配[9]等。在每一个决策周期中,节点调度算法选择最优的传感器子集对目标进行观测,以达到跟踪精度和能量功耗的折中。
国内外许多学者对目标跟踪的节点调度算法进行了研究。一些研究将该问题建模为最小化瞬时估计误差或最大化瞬时信息增益的优化问题,建立了基于某个准则下的代价函数,例如熵和相对熵、互信息、先验克拉美罗下界、条件克拉美罗下界、最小均方误差等等[8,10,11]。文献[9]根据目标预测位置,基于势博弈模型求解纳什均衡,达到了较快的收敛速度。这些贪婪算法仅考虑节点调度算法的瞬时表现,没有考虑对未来的影响,因此可被视为“短视”的策略。
在目标跟踪过程中,当前时刻传感器的调度策略会影响传感器对目标的观测结果,该观测结果会影响当前对目标状态的估计,状态估计又会影响下一时刻传感器的调度策略。显然这是一个序贯的决策过程,当前时刻的决策会影响未来的走向,因此必须综合考虑决策的瞬时表现和长远表现。
为了得到长远考虑的优化决策,可以将该问题建模为一个部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process, POMDP)[12]。在POMDP中,由于观测噪声或其他原因,目标状态不能根据观测完全确定,文献中称为部分可观测。POMDP研究的是如何根据历史动作和观测序列,在考虑未来代价的情况下求解最优策略的问题。文献[13]提出了POMDP框架下的类卡尔曼估计,并被应用于传感器网络中的主动目标跟踪[14]。
由于POMDP固有的计算复杂度,只有问题的状态集、动作集和观测集规模很小的情况下,该问题才能被精确求解[12]。为了解决这个问题,学者们提出了许多近似求解POMDP问题的启发式算法[14,15]。当代价函数关于置信状态是线性函数时,近似算法有PBVI, PEMA, Perseus, HSVI, FSVI, SARSOP等,但是这些算法不适用于一般的非线性代价函数的情况。QMDP算法[16]为了处理非线性代价函数,简化未来代价的计算,假设当前状态经过一步转移后,目标状态变为完全可观测,从而基于MDP[17]计算未来代价,但是该算法不能直接应用于状态集是连续空间的情况。对于连续状态空间的情形,He等人[18]将Rollout算法[19]应用到POMDP框架下的节点调度算法中,在计算未来代价时使用基本策略代替最优策略,并采用在线模拟的方法近似Q-value,取得了不错的效果。Li等人[20,21]做出了和QMDP算法相同的假设,即经过一步转移后,目标状态变为完全可观测的,从而使用CO-Rollout方法[19]近似Q-value,求解优化策略,简化了未来代价的计算。然而,Rollout和CO-Rollout算法均使用基本策略代替最优策略,对Q-value的近似精度较低;此外,在线模拟的方式计算复杂度过高,难以应用于工程实践。
本文提出一种近似求解算法C-QMDP,该算法通过两个步骤,分别计算节点调度的瞬时代价和未来代价。对于目标跟踪问题,利用MCMC方法推导置信状态的转移,跟踪目标位置,并计算瞬时代价;对于节点调度问题,将目标的状态空间离散化,基于MDP值迭代求解未来代价的近似值,综合考虑瞬时代价和未来代价选择传感器子集。使用C-QMDP算法进行节点调度的优势有以下几点:(1)将节点调度问题建模为POMDP,综合考虑了决策的瞬时表现和长远表现;(2)可以求解MDP最优策略下各个状态的最小损失来近似Q-value,跟踪更加准确;(3)计算未来损失的过程可以离线计算,将各个状态的最小损失存储起来,在线决策时节约了计算量,提高了系统的实时性。
本文的研究场景描述如下:在一块区域中,部署了M个位置已知的传感器,用于跟踪单个目标。传感器观测结果包含噪声,并且观测范围有限。目标转移符合近似恒定速度(Nearly Constant Velocity, NCV)模型[22]。存在一个中心处理单元,接收传感器回传的观测数据,进行状态估计和决策,决定下一时刻系统中每个传感器的开关。决策的目标是选择打开一组传感器,综合考虑跟踪精度和传感器功耗,使得跟踪过程累积代价最小。
(1)系统状态:系统状态包含了在2维平面上移动的目标的位置和速度:
(2)动作动作:
(3)状态转移模型:状态转移模型刻画了目标如何从一个状态转移到另一个状态。假设目标的速度变化缓慢,可以使用近似恒定速度模型[22]:
Sk+1=[xk+1,˙xk+1,yk+1,˙yk+1]T=[1Ts000100001Ts0001]Sk+[Ts2/20Ts00Ts2/20Ts]⋅[vxvy] | (1) |
其中,
(4)观测模型:传感器观测模型使用电子通信领域常见的RSSI (Received Signal Strength Indicator)观测模型[23,24],传感器观测目标发出的能量信号强度与传感器间距离的
zm=E0‖ps−pm‖λ+wm | (2) |
其中,
此外,定义
事实上,本文算法并不局限于RSSI观测模型,由于后续采用粒子滤波进行状态估计,因此也可运用于其他观测模型。
(5)置信状态:每个时刻可基于历史观测和采取的动作序列得到目标状态的后验分布,该分布被称为目标的置信状态,记作
(6)瞬时代价函数:瞬时代价函数表示目标在状态转移过程中每一步所产生的瞬时代价,包含两个方面:跟踪误差以及传感器功耗。使用常数
L=αE[‖ˆps−ps‖2]+M∑m=1conmam=α∫ps‖ˆps−ps‖2b(ps)dps+M∑m=1conmam | (3) |
其中,
POMDP的迭代过程如下:在k时刻,目标真实状态为
在POMDP框架下,节点调度的目标是,寻找一个策略,即一个置信状态
\begin{align} U({{{b}}_k},{{π}} ) &= \mathbb{E}\left(\sum\limits_{t = k}^\infty {{\beta ^{t - k}}L\left({{{b}}_t},{{{A}}_t}\right)|{{π}} ,{{{b}}_k}} \right) \\ &= L({{{b}}_k},{{{A}}_k}) + \beta \; \mathbb{E}(U({{{b}}_{k + 1}},{{π}} )|{{{b}}_k},{{{A}}_k}) \end{align} | (4) |
其中,
为了更方便地在第k步时求解最优动作
Q({{{b}}_k},{{A}}) = L({{{b}}_k},{{A}}) + \beta \mathbb{E}({V^*}({{{b}}_{k + 1}})|{{{b}}_k},{{A}}) | (5) |
{{{A}}_k} = {{{π}} ^*}({{{b}}_k}) = \arg \mathop {\min }\limits_{{A}} Q({{{b}}_k},{{A}}) | (6) |
其中,
前一节基于POMDP框架对传感器网络进行目标跟踪的场景进行了建模,本节将对该问题进行近似求解。在每个决策周期中,传感器得到目标的观测,并产生下一时刻需要采取的动作。这里,要解决两个方面的问题:(1)如何跟踪目标的置信状态;(2)如何根据置信状态产生下一时刻要采取的动作。
首先,考虑如何描述状态迁移的问题。在状态转移模型和观测模型皆为线性方程、噪声均为高斯噪声的场景下,可以使用卡尔曼滤波器求得目标置信状态迁移过程的解析解。在更一般的情况下,线性高斯假设不一定成立,例如本文中的观测模型,此时无法获得解析解。在非线性系统中,粒子滤波[25]是一种常用的近似计算目标置信状态迁移的方法。它使用蒙特卡洛采样近似后验概率的积分,可以解决转移方程或观测方程非线性的问题。
接下来,考虑节点调度问题。根据式(6),只需找到让
在每个决策周期中,需要根据现有观测,更新对目标状态的估计。在第1节中,已经定义了置信状态
\begin{align} {\rm{P}}({{{S}}_k}|{{{I}}_k}) =& \int\nolimits_{{{{S}}_{k - 1}}} {{\rm{P}}({{{S}}_k}|{{{S}}_{k - 1}},{{{I}}_k}){\rm{P}}({{{S}}_{k - 1}}|{{{I}}_k}){\rm{d}}{{{S}}_{k - 1}}} \\= & \int\nolimits_{{{{S}}_{k - 1}}} {{\rm{P}}({{{S}}_k}|{{{S}}_{k - 1}}){{{b}}_{k - 1}}{\rm{d}}{{{S}}_{k - 1}}} \end{align} | (7) |
得到k时刻观测
\begin{align} {{{b}}_k} =& {\rm{P}}({{{S}}_k}|{{{Z}}_k},{{{I}}_k}) = \frac{1}{\gamma }{\rm{P}}({{{Z}}_k}|{{{S}}_k},{{{I}}_k}){\rm{P}}({{{S}}_k},{{{I}}_k}) \\ =& \frac{1}{\gamma }{\rm{P}}({{{Z}}_k}|{{{S}}_k},{{{A}}_{k - 1}})\int\nolimits_{{{{S}}_{k - 1}}} {{\rm{P}}({{{S}}_k}|{{{S}}_{k - 1}}){{{b}}_{k - 1}}{\rm{d}}{{{S}}_{k - 1}}} \end{align} |
(8)
其中,
根据式(8),可以获得置信状态
{{{b}}_k} = {\rm{P}}({{{S}}_k}|{{{Z}}_k},{{{I}}_k}) \approx \sum\limits_{i = 1}^N {w_k^{(i)}{δ} \left({{{S}}_k} - {{S}}_k^{(i)}\right)} | (9) |
其中,
粒子滤波的实现有很多种,本文使用常见的SIR滤波器[25]。权值更新公式为
{\rm{P}}\left({{{Z}}_k}|{{S}}_k^{(i)}\right) = \prod\limits_{m = 1}^M {{\rm{P}}{{\left({z_{k,m}}|{{S}}_k^{(i)}\right)}^{{a_{k,m}}}}} | (10) |
其中,
重采样后粒子权重均为
w_k^{(i)} = \frac{1}{N}\prod\limits_{m = 1}^M {{\rm{P}}{{\left({z_{k,m}}|{{S}}_k^{(i)}\right)}^{{a_{k,m}}}}} | (11) |
之后对权值进行归一化:
\tilde w_k^{(i)} = {{w_k^{(i)}}}\biggr/{{\displaystyle\sum\limits_{j = 1}^N {w_k^{(j)}} }} | (12) |
根据当前N个粒子的状态和权重,可以求得当前目标状态的MMSE估计,即后验均值:
{{\hat{ S}}_k} = \sum\limits_{i = 1}^N {\tilde w_k^{(i)}{{S}}_k^{(i)}} | (13) |
基于粒子滤波算法,可以更新目标置信状态的状态迁移。于是,在粒子滤波的时刻k,可以将此时的粒子集
L = \alpha \sum\limits_{i = 1}^N {{{\left\| {{{{\hat{ p}}}_{s,k}} - {{p}}_{s,k}^{(i)}} \right\|}^2}\tilde w_k^{(i)}} + \sum\limits_{m = 1}^M {c_m^{{\rm{on}}}{a_m}} | (14) |
其中,
根据式(4),由于
C-QMDP算法中将Q-value近似计算分为两部分,在POMDP的框架下,基于3.1节中粒子滤波算法更新置信状态,将
为了求解
\begin{align}& \mathbb{E}\left({V^*}\left({{{S}}_{k + 1}}\right)\Bigr|{{{b}}_k},{{A}}\right)\; \; \\& \quad\quad{\rm{ = }}\int\nolimits_{{{{S}}_{k + 1}}} {{V^*}({{{S}}_{k + 1}}){\rm{P}}({{{S}}_{k + 1}}|{{{b}}_k},{{A}}){\rm{d}}} {{{S}}_{k + 1}} \\& \quad\quad= \sum\limits_{i = 1}^N {\tilde w_{k{\rm{ + }}1}^{(i)}{V^{\rm{*}}}\left({{S}}_{k + 1}^{(i)}\right)} \end{align} | (15) |
其中,概率
基于C-QMDP求解最优策略的步骤如下:
(1)首先,将目标的状态空间进行离散化,以便应用MDP求解。使用网格划分的方法,将目标状态的各个分量在取值范围内等间隔划分。设离散化后的目标状态一共有D个,由
(2)然后,根据状态转移方程,计算离散状态两两之间的转移概率
求解转移概率的解析解是困难的,转移概率多重积分的解析解无法获得,可以使用蒙特卡洛采样代替积分运算。当计算转移概率
\left. {\begin{align} &{{x_{\min }} < {x^{(i)}} + {T_s}{{\dot x}^{(i)}} + \frac{{T_s\,\!^2}}{2}{v_x} < {x_{\max }}} \\ & {{{\dot x}_{\min }} < {{\dot x}^{(i)}} + {T_s}{v_x} < {{\dot x}_{\max }}} \end{align}} \!\!\!\!\!\!\!\!\!\! \right\} | (16) |
其中,
(3)接下来,根据代理代价函数[19],计算每个状态对应的瞬时代价
代理代价函数选取的标准是可以有效反映真实代价,计算出的Q-value可用于评判动作的优劣。本文使用累积观测质量的倒数作为代理代价函数,即
\tilde L({{S}},{{A}}) = \alpha \frac{1}{{\displaystyle\sum\limits_{m = 1}^M {{N_m}({{S}}){a_m}} }} + \sum\limits_{m = 1}^M {c_m^{{\rm{on}}}{a_m}} | (17) |
其中,
{N_m}({{S}}) = \frac{{E_0^{}}}{{{{\left\| {{{{p}}_s} - {{{p}}_m}} \right\|}^\lambda }\sigma _m^2}} | (18) |
当计算状态
(4)此时,已经求得了MDP框架下所有要素的值。可以使用MDP值迭代[17]的方法,求解各个离散状态对应的期望最小损失。离散状态
(5)以上步骤均为离线计算。在线决策时,如当前置信状态为
\mathbb{E}({V^*}({{{S}}_{k + 1}})|{{{b}}_k},{{A}})\; \; {\rm{ = }}\; \; \sum\limits_{i = 1}^N {\tilde w_{k{\rm{ + }}1}^{(i)} V\!\, \raisebox{4pt}{\hat} \ \left({\tilde{ S}}_{k + 1}^{(i)}\right)} | (19) |
求得未来损失后,代入式(5),由算法1第8行即可计算置信状态
整体算法过程如表1的算法1所示。
算法 1 C-QMDP算法
输入:置信状态(包括粒子状态和粒子权重): {{{b}}_k} = \left({{S}}_k^{(1)},\tilde w_k^{(1)},{{S}}_k^{(2)},\tilde w_k^{(2)},·\!·\!·,{{S}}_k^{(N)},\tilde w_k^{(N)}\right) 输出:最优动作A (1) function C-QMDP( {{{b}}_k}) (2) V\!\, \raisebox{4pt}{\hat} \leftarrow {\rm{MDP\_discrete\_value\_iteration()}} (3) for all control actions A do (4) {{{b}}_{k + 1}} \leftarrow {\rm{Particle\_filter(}}{{{b}}_k},{{A}}{\rm{)}} (5) for i = 1 : N do (6) {\tilde{ S}}_{k + 1}^{(i)} \leftarrow {{S}}_{k + 1}^{(i)} (7) end for (8) Q({{{b}}_k},{{A}}) = L({{{b}}_k},{{A}}) + \beta \sum\limits_{i = 1}^N {\tilde w_k^{(i)}V\!\, \raisebox{4pt}{\hat}\left({\tilde{ S}}_{k + 1}^{(i)}\right)} (9) end for (10) return \arg \mathop {\max }\limits_{{A}} Q({{{b}}_k},{{A}}) (11) end function |
为了验证基于C-QMDP近似Q-value的节点调度算法的性能,本文与传感器全部开启、文献[27]的最近点方法(Closest Point Approach, CPA)算法、文献[21]的CO-Rollout算法进行仿真比较。选用CO-Rollout算法比较的原因是该算法适用于本文中观测方程与代价函数均为非线性的场景,且同样是将本文场景建模为POMDP问题并求解。传感器全部开启的方法指的是在每个时刻将所有的传感器开启,对目标状态进行观测。CPA是一种“贪婪”算法,在每个决策时间,根据对目标状态的估计,选择距离目标最近的m个传感器对目标进行观测。由于观测能量信号强度与目标和传感器间距离的
仿真中,将M=20个观测精度不同的传感器随机分布在160 m×120 m的平面区域内,对移动目标进行跟踪。x轴坐标范围为[–80, 80], y轴坐标范围为[0, 160]。目标根据式(1)定义的转移模型移动,初始位置为(2,7),初始速度为(1,2),方差
通过仿真验证C-QMDP算法的跟踪性能,跟踪结果如图2所示。可以看出,当目标在平面区域随机移动时,C-QMDP算法能够在误差允许的情况下,实现对目标位置的实时跟踪。
接下来,比较不同算法下目标跟踪的累积误差,计算50次后取平均,结果如图3所示。跟踪误差的计算公式为
节点调度算法的目的是对跟踪误差和能量消耗进行权衡。在式(3)中,使用
对文中各算法的性能进行定量分析,跟踪误差的计算公式为
算法 | 跟踪误差 | 传感器功耗 | 总代价 |
全部开启 | 1.3647 | 70.0722 | 97.3662 |
CPA | 2.9132 | 24.0217 | 82.2857 |
CO-Rollout | 1.8371 | 20.3493 | 57.0913 |
C-QMDP | 1.5542 | 20.0906 | 51.1746 |
由图4和表2可知,虽然将所有传感器全部开启可以获得较高的跟踪精度,但是会带来很大的能量消耗,导致整体的代价很高,累积总代价上涨速度较快。当迭代到第5次后,全部开启的累积总代价超过了CPA算法。通过CO-Rollout和C-QMDP近似Q-value的节点调度算法每次选择了较少的传感器组合进行目标跟踪,能量消耗明显小于全部开启的方法,因此保持了较小的累积总代价。由于CO-Rollout算法计算未来代价时使用基本策略代替最优策略进行估计,估计误差较C-QMDP算法更大,因此总代价高于基于C-QMDP近似Q-value的节点调度算法。
比较不同算法各时刻的节点调度策略,如图5所示。可以看出,在每个时刻,CPA算法根据对目标位置的估计,选择最近的m个传感器。在各个时刻不同的算法选择了不同数量和位置的传感器子集对目标进行观测,其中C-QMDP算法往往可以选择更加合理的传感器子集。同时,C-QMDP算法可以根据目标位置估计的精确程度,灵活调整传感器子集的数量,当目标位置估计较为精确时,将选用较少数量的传感器以减少功耗;反之,则选用较多数量的传感器以降低跟踪误差。
此外,由于C-QMDP算法将未来代价的计算在线下进行,节约了在线计算时间。因此在相同的粒子数目、传感器数目的情况下,C-QMDP算法相比CO-Rollout算法需要更少的计算资源。
本文将无线传感器网络中的目标跟踪问题建模为部分可观测马尔科夫决策过程(POMDP),并提出了C-QMDP算法对非线性代价函数的POMDP问题进行近似求解。C-QMDP算法基于粒子滤波推导当前置信状态的转移,然后根据置信状态计算当前损失;计算未来损失时,将目标状态离散化,使用MDP框架的值迭代方法求解最小期望损失。C-QMDP算法一方面提高了计算准确度,得到了更好的传感器调度策略,另一方面将未来损失的计算转移到线下进行,减小了在线决策时的计算量。仿真结果表明,C-QMDP算法在计算准确度和在线计算时间方面均比CPA和CO-Rollout算法有所改进。
值得注意的是,C-QMDP算法也可适用于其他类似的观测方程和代价函数非线性的序贯决策问题中。如果观测方程线性且噪声是高斯噪声,可以使用卡尔曼滤波代替文中的粒子滤波推导置信状态的迁移,进一步降低计算量和准确性。对于连续状态的离散化,本文使用的是等间隔划分的方法,后续可以研究是否有更好的离散化方法,或采用近似方法直接求解连续状态空间的MDP问题。此外,可以对代理代价函数做更多的尝试,选择更能准确近似真实Q-value的代理代价函数。
ALCALA J M, URENA J U, HERNANDEZ A, et al. Sustainable homecare monitoring system by sensing electricity data[J]. IEEE Sensors Journal, 2017, 17(23): 7741–7749 doi: 10.1109/JSEN.2017.2713645
|
MARTELLI T, BONGIOANNI C, COLONE F, et al. Security enhancement in small private airports through active and passive radar sensors[C]. 17th IEEE International Conference on Radar Symposium (IRS), Krakow, Poland, 2016: 1–5.
|
SHI W Y and CHIAO J C. Neural network based real-time heart sound monitor using a wireless wearable wrist sensor[C]. IEEE Conference on Circuits and Systems Conference (DCAS), Arlington, USA, 2016: 1–4.
|
ANGLEY D, SUVOROVA S, RISTIC B, et al. Sensor scheduling for target tracking in large multistatic sonobuoy fields[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Arlington, USA, 2017: 3146–3150.
|
SONG R, WEI Q, and XIAO W. ADP-based optimal sensor scheduling for target tracking in energy harvesting wireless sensor networks[J]. Neural Computing and Applications, 2016, 27(6): 1543–1551 doi: 10.1007/s00521-015-1954-4
|
YANG X, ZHANG W A, CHEN M Z Q, et al. Hybrid sequential fusion estimation for asynchronous sensor network-based target tracking[J]. IEEE Transactions on Control Systems Technology, 2017, 25(2): 669–676 doi: 10.1109/TCST.2016.2558632
|
唐显锭, 冯辉, 杨涛, 等. 无线传感器网络中用于目标跟踪的节点规划算法[J]. 太赫兹科学与电子信息学报, 2014, 12(3): 355–361 doi: 10.11805/TKYDA201403.0355
TANG Xianding, FENG Hui, YANG Tao, et al. Sensor scheduling for target tracking in wireless sensor networks[J]. Journal of Terahertz Science and Electronic Information Technology, 2014, 12(3): 355–361 doi: 10.11805/TKYDA201403.0355
|
ZHANG H, AYOUB R, and SUNDARAM S. Sensor selection for Kalman filtering of linear dynamical systems: Complexity, limitations and greedy algorithms[J]. Automatica, 2017, 78: 202–210 doi: 10.1016/j.automatica.2016.12.025
|
冉晓旻, 方德亮. 基于势博弈的分布式目标跟踪传感器分配算法[J]. 电子与信息学报, 2017, 39(11): 2748–2754 doi: 10.11999/JEIT170229
RAN Xiaomin and FANG Deliang. Distributed sensor allocation algorithm for target tracking based on potential game[J]. Journal of Electronics&Information Technology, 2017, 39(11): 2748–2754 doi: 10.11999/JEIT170229
|
SINGH P, CHEN M, CARLONE L, et al. Supermodular mean squared error minimization for sensor scheduling in optimal Kalman filtering[C]. IEEE Conference on American Control Conference (ACC), Seattle, USA, 2017: 5787–5794.
|
ASGHAR A B, JAWAID S T, and SMITH S L. A complete greedy algorithm for infinite-horizon sensor scheduling[J]. Automatica, 2017, 81: 335–341 doi: 10.1016/j.automatica.2017.04.018
|
SPAAN M T J. Partially Observable Markov Decision Processes[M]. Berlin Heidelberg: Springer, 2012: 387–414.
|
ZOIS D S, LEVORATO M, and MITRA U. Active classification for POMDPs: A Kalman-like state estimator[J]. IEEE Transactions on Signal Processing, 2014, 62(23): 6209–6224 doi: 10.1109/TSP.2014.2362098
|
ZOIS D S and MITRA U. Active state tracking with sensing costs: Analysis of two-states and methods for n-states[J]. IEEE Transactions on Signal Processing, 2017, 65(11): 2828–2843 doi: 10.1109/TSP.2017.2664049
|
SHANI G, PINEAU J, and KAPLOW R. A survey of point-based POMDP solvers[J]. Autonomous Agents and Multi-Agent Systems, 2013, 27(1): 1–51 doi: 10.1007/s10458-012-9200-2
|
LITTMAN M L, CASSANDRA A R, and KAELBLING L P. Learning policies for partially observable environments: Scaling up[C]. Proceedings of the 12th International Conference on Machine Learning, Tahoe City, USA, 1995: 362–370.
|
RUSSELL S. Artificial Intelligence: A Modern Approach. Making Complex Decisions (Ch-17)[M]. Englewood Cliffs: Prentice-Hall, 2004: 645–692.
|
HE Y and CHONG K P. Sensor scheduling for target tracking in sensor networks[C]. 43rd IEEE Conference on Decision and Control(CDC), Nassau, Bahamas, 2004: 743–748.
|
CHONG E K P, KREUCHER C M, and HERO III A O. POMDP Approximation Using Simulation and Heuristics[M]. Boston, MA: Springer, 2008: 95–119.
|
LI Y, KRAKOW L W, CHONG E K P, et al. Dynamic sensor management for multisensor multitarget tracking[C]. IEEE 40th Annual Conference on Information Sciences and Systems, Princeton, USA, 2006: 1397–1402.
|
LI Y, KRAKOW L W, CHONG E K P, et al. Approximate stochastic dynamic programming for sensor scheduling to track multiple targets[J]. Digital Signal Processing, 2009, 19(6): 978–989 doi: 10.1016/j.dsp.2007.05.004
|
BAR-SHALOM Y, LI X R, and KIRUBARAJAN T. Estimation with Applications to Tracking and Navigation: Theory Algorithms and Software[M]. New York: John Wiley & Sons, 2004: 199–266.
|
ALIPPI C and VANINI G. A RSSI-based and calibrated centralized localization technique for Wireless Sensor Networks[C]. Fourth Annual IEEE International Conference on Pervasive Computing and Communications Workshops, Pisa, Italy, 2006: 301–305.
|
NIU R and VARSHNEY P K. Target location estimation in sensor networks with quantized data[J]. IEEE Transactions on Signal Processing, 2006, 54(12): 4519–4528 doi: 10.1109/TSP.2006.882082
|
ARULAMPALAM M S, MASKELL S, GORDON N, et al. A tutorial on particle filters for online nonlinear/non-Gaussian Bayesian tracking[J]. IEEE Transactions on Signal Processing, 2002, 50(2): 174–188 doi: 10.1109/78.978374
|
RUSSELL S. Artificial Intelligence: A Modern Approach. Probabilistic Reasoning Over Time (Ch-15)[M]. Englewood Cliffs: Prentice-Hall, 2004: 566–609.
|
HE Y and CHONG E K P. Sensor scheduling for target tracking: A Monte Carlo sampling approach[J]. Digital Signal Processing, 2006, 16(5): 533–545 doi: 10.1016/j.dsp.2005.02.005
|
1. | 庞浩杰,常凯,金琰,朱亮. 基于六边形网格组部署的对称密钥预分配模型. 计算机测量与控制. 2023(03): 208-214 . ![]() | |
2. | 周海飞,芦翔,胡春芬. 考虑节点信誉度的传感器网络数据并行聚集. 传感技术学报. 2022(04): 545-549 . ![]() | |
3. | 任腾飞,周洁. 基于节点能量约束的无线传感器网络目标跟踪算法. 现代计算机. 2022(23): 44-48 . ![]() | |
4. | 于丹宁,倪坤,刘云龙. 基于循环卷积神经网络的POMDP值迭代算法. 计算机工程. 2021(02): 90-94+102 . ![]() | |
5. | 张天宇. 无线传感网络的目标跟踪技术. 电子技术与软件工程. 2021(07): 41-42 . ![]() | |
6. | 陆敏杰,刘兆霆. 基于牛顿迭代二值采样信号参数估计的鲁棒算法. 传感技术学报. 2021(09): 1231-1236 . ![]() | |
7. | 卫朝霞,刘志超,罗佳. 基于能量限制的分布式无线传感器网络调度. 探测与控制学报. 2021(05): 72-78 . ![]() | |
8. | 王国豪,李怀忠,马云明. 考虑目标捕获率和能量限制的无线传感器网络管理. 传感技术学报. 2020(03): 464-470 . ![]() | |
9. | 邵凌峰,杨俊杰,方济城,朱彬斌,陈明磊. 基于自适应控制策略的WSN节点能量优化. 控制工程. 2020(12): 2199-2203 . ![]() | |
10. | 徐公国,单甘霖,段修生,乔成林,王浩天. 基于马尔科夫决策过程的多传感器协同检测与跟踪调度方法. 电子与信息学报. 2019(09): 2201-2208 . ![]() |
算法 1 C-QMDP算法
输入:置信状态(包括粒子状态和粒子权重): {{{b}}_k} = \left({{S}}_k^{(1)},\tilde w_k^{(1)},{{S}}_k^{(2)},\tilde w_k^{(2)},·\!·\!·,{{S}}_k^{(N)},\tilde w_k^{(N)}\right) 输出:最优动作A (1) function C-QMDP( {{{b}}_k}) (2) V\!\, \raisebox{4pt}{\hat} \leftarrow {\rm{MDP\_discrete\_value\_iteration()}} (3) for all control actions A do (4) {{{b}}_{k + 1}} \leftarrow {\rm{Particle\_filter(}}{{{b}}_k},{{A}}{\rm{)}} (5) for i = 1 : N do (6) {\tilde{ S}}_{k + 1}^{(i)} \leftarrow {{S}}_{k + 1}^{(i)} (7) end for (8) Q({{{b}}_k},{{A}}) = L({{{b}}_k},{{A}}) + \beta \sum\limits_{i = 1}^N {\tilde w_k^{(i)}V\!\, \raisebox{4pt}{\hat}\left({\tilde{ S}}_{k + 1}^{(i)}\right)} (9) end for (10) return \arg \mathop {\max }\limits_{{A}} Q({{{b}}_k},{{A}}) (11) end function |
算法 | 跟踪误差 | 传感器功耗 | 总代价 |
全部开启 | 1.3647 | 70.0722 | 97.3662 |
CPA | 2.9132 | 24.0217 | 82.2857 |
CO-Rollout | 1.8371 | 20.3493 | 57.0913 |
C-QMDP | 1.5542 | 20.0906 | 51.1746 |
算法 1 C-QMDP算法
输入:置信状态(包括粒子状态和粒子权重): {{{b}}_k} = \left({{S}}_k^{(1)},\tilde w_k^{(1)},{{S}}_k^{(2)},\tilde w_k^{(2)},·\!·\!·,{{S}}_k^{(N)},\tilde w_k^{(N)}\right) 输出:最优动作A (1) function C-QMDP( {{{b}}_k}) (2) V\!\, \raisebox{4pt}{\hat} \leftarrow {\rm{MDP\_discrete\_value\_iteration()}} (3) for all control actions A do (4) {{{b}}_{k + 1}} \leftarrow {\rm{Particle\_filter(}}{{{b}}_k},{{A}}{\rm{)}} (5) for i = 1 : N do (6) {\tilde{ S}}_{k + 1}^{(i)} \leftarrow {{S}}_{k + 1}^{(i)} (7) end for (8) Q({{{b}}_k},{{A}}) = L({{{b}}_k},{{A}}) + \beta \sum\limits_{i = 1}^N {\tilde w_k^{(i)}V\!\, \raisebox{4pt}{\hat}\left({\tilde{ S}}_{k + 1}^{(i)}\right)} (9) end for (10) return \arg \mathop {\max }\limits_{{A}} Q({{{b}}_k},{{A}}) (11) end function |
算法 | 跟踪误差 | 传感器功耗 | 总代价 |
全部开启 | 1.3647 | 70.0722 | 97.3662 |
CPA | 2.9132 | 24.0217 | 82.2857 |
CO-Rollout | 1.8371 | 20.3493 | 57.0913 |
C-QMDP | 1.5542 | 20.0906 | 51.1746 |