一种基于N-gram模型和机器学习的汉语分词算法
A WORD SEGMENTATION ALGORITHM FOR CHINESE LANGUAGE BASED ON N-GRAM MODELS AND MACHINE LEARNING
-
摘要: 汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。Abstract: Automatic word segmentation for the Chinese language is a fundamental and difficult problem in the field of computer Chinese language information processing. This paper presents a new method for segmenting the input Chinese language text sentence into words, which consists of a character-based N-gram model and an efficient Viterbi search algorithm. In addition, two performance evaluation ration targets, i.e. Recall and Precision for word segmentation algorithm are discussed, The effectiveness has been confirmed by evaluation experiments using the closed texts and open texts corpus.
-
1. 引 言
随着汽车电子技术、人工智能和移动互联网的快速发展与融合应用,汽车产业形态不断向具有智能化和网联化特征的智能网联汽车(Intelligent Connected Vehicle, ICV)演进[1]。智能网联汽车通过搭载先进的车载传感器与智能控制系统,并与现代移动通信技术相结合,实现了车辆与车辆、车辆与路侧基础设施、车辆与云端平台、车辆与用户之间的信息交互与共享,为人们的交通出行带来了极大便捷。但与此同时,智能网联汽车对外通信接口的增加和系统复杂化使车载网络更容易受到网络攻击[2]。针对车载网络的攻击事件频繁发生,汽车信息安全召回事件也不断被爆出[3]。这不仅会造成个人隐私泄露和经济损失,严重时还会危及生命安全,甚至上升为国家公共安全问题。
目前,控制器域网络(Controller Area Network, CAN)是智能网联汽车应用最广泛的车载通信网络,也是车载各电子控制单元(Electronic Control Units, ECU)间的运行状态、控制指令等信息交互的纽带。由于在初始设计时缺乏信息安全机制,作为车载网络重要媒介的CAN极易受到嗅探、伪造、修改和重放等攻击[4-6]。CAN网络异常检测是应对各类网络攻击的重要手段,也是提升智能网联汽车CAN网络安全的关键环节。但车载网络环境配置的计算、存储等资源非常有限,如何在有限的车载网络资源约束条件下,准确、及时地检测出CAN网络异常状态,成为当前学术界和汽车工业界共同关注的焦点问题。
近年来,学术界对于智能网联汽车CAN网络异常检测已开展了不少研究工作,包括基于特征观察[7-9]、基于机器学习[10-13] 和基于信息统计分析[14]等异常检测方法。其中,基于特征观察的异常检测方法可以利用ECU电压指纹[15,16]、消息时钟偏移[17,18]等特征检测CAN网络状态,此类检测方法虽然响应快、资源开销小[19] ,但由于ECU电压指纹随时间、温度变化波动,以及ECU石英晶体时钟电磁干扰等不确定因素,容易导致CAN网络异常检测出现抖动,这种抖动会造成将正常运行状态误判为遭受网络攻击的虚警,影响CAN异常检测的准确率。基于机器学习的检测方法复杂度高、消耗资源大、检测时延较长,鉴于车载网络环境配置计算、存储等资源非常有限,难以轻量化部署应用于真实车载网络环境中。基于信息统计分析的异常检测方法充分利用了CAN网络实时传输大量消息的数据资源,通过统计分析消息传输信息熵[20,21]等方式,实现对CAN网络状态的高效检测。下面将重点介绍现有基于信息统计分析检测方法中的主要研究工作。
Müter等人[20]首次将信息熵的概念用于车载网络的入侵检测,并设计了基于CAN报文标准帧标识符(Identity Document, ID)信息熵的异常检测方法,通过计算设定时间内不同CAN报文ID信息熵来获取正常信息熵阈值,并利用该信息熵阈值实时比对检测采集到的CAN报文ID信息熵。在此基础上,Virmani 等人[21]提出了一种基于信息熵偏差的CAN网络入侵分析的算法,Zhao等人[22]提出了一种针对分布式拒绝服务(Distributed Denial of Service, DDoS)攻击的CAN网络流量熵方法。此外,Wang等人[23]提出了一种基于CAN报文ID单一二进制位信息熵的入侵检测算法,于赫等人[24]采用单位时间窗口内报文信息熵的波动来检测泛洪攻击和报文重放攻击,吴武飞等人[2]采用固定消息数量窗口来计算CAN报文ID信息熵最值的优化方法,这些研究方法能够有效检测出CAN报文网络异常,并在一定程上提升了针对特定网络攻击的检测准确度。然而,这些研究在优化提升检测精度过程中,没有考虑在CAN网络正常运行时,需要通过降低检测频次来节省车载资源开销的情况;也没有考虑CAN网络在遭受网络攻击时,需要保持较高检测频次来提升检测及时性和准确度的检测场景需求。因此,这些方法难以在车载网络配置资源约束条件下,兼顾不同场景对检测准确度、时效性的多样化要求。
针对上述方法存在的局限性,本文提出一种车载资源约束下的智能网联汽车CAN网络异常检测自适应优化方法。本方法通过建立CAN网络检测准确度和时效性指标,设计了CAN网络异常检测多目标优化模型及第二代非支配排序遗传算法(Non-dominated Sorting Genetic Algorithm-II, NSGA-II)求解算法;并将帕累托前沿作为CAN网络异常检测模型参数的优化调整空间,提出了适应多样化场景的检测模型参数鲁棒控制机制。基于公开CAN网络数据集的实验结果表明,所提方法能够在有限车载网络配置资源条件下,增强CAN网络异常检测系统应对多样化检测场景的自适应调整能力。本文的主要创新工作如下:
(1)建立了基于CAN报文信息熵的异常检测多目标优化模型。在CAN报文信息熵基础上,建立了CAN网络检测准确度和时效性指标,构建了CAN网络异常检测多目标优化模型,该模型能够在车载资源约束条件下兼顾考虑CAN网络异常检测的准确性和响应时效性因素。
(2)探索分析了异常检测模型参数对优化目标的影响趋势。通过大量实验和数据统计,分析了窗口大小、滑动尺度和灵敏度3项参数变化情况对CAN报文信息熵、检测准确度和时效性的影响,并发现了采样窗口越大信息熵越稳定、滑动尺度越小车载资源开销越大、灵敏度越大检测准确度越高等变化趋势。
(3)提出了适应多样化检测场景的优化方法及鲁棒控制机制。设计改进了求解多目标优化问题的NSGA-II算法,提出了基于CAN网络运行状态感知的检测模型参数鲁棒控制机制。提出的方法及机制能够自适应优化调整检测模型参数,提升在正常运行、遭受网络攻击等不同场景下的检测准确度和时效性。
2. 问题描述
尽管车载网络环境配置的计算、存储等资源非常有限,但CAN异常检测对安全可靠和快速响应具有严格要求。为了能够量化表征CAN报文信息熵异常检测的精确度和及时响应程度,本节给出了CAN报文信息熵定义和异常检测准确性、时效性两个指标,然后提出了CAN报文信息熵异常检测多目标优化问题模型。
2.1 异常检测评估指标
(1)CAN报文信息熵。CAN报文数据帧结构包括ID、数据内容和校验等部分,各部分存储顺序及占用字节情况如图1所示。其中,ID用于表明发送数据的类型标识和优先级,不同ID对应数据域内不同数据类型;同时,ID越小则该报文传输优先级越高。提取出CAN报文中的ID,并对一定时间内或一定数量的ID信息统计分析,能够反映CAN网络传输报文消息的运行状态。本文通过统计一定报文数量窗口内的不同ID类型分布概率来计算CAN报文信息熵
pkid = countkidn∑k = 1countkid (1) H(IDS) =n∑k=1−pkidlgpkid=n∑k=1−countkidn∑k=1countkidlgcountkidn∑k=1countkid (2) 其中,H(IDS)为滑动窗口内所有ID类型报文集IDS的信息熵,pkid为滑动窗口内第k种ID报文的信息熵,countkid为第k种ID报文在滑动窗口内出现的次数,n为滑动窗口内出现的不同ID报文的种类。
(2)信息熵阈值区间。为了准确度量CAN报文信息熵,通过计算大量窗口的CAN报文信息熵均值和方差,建立CAN报文正常的信息熵阈值区间。在设定滑动窗口大小sizewin和滑动尺度slidewin基础上,计算大量滑动窗口信息熵H(IDS)的平均值μ和标准差s,设定信息熵阈值区间
S(IDS) = [μ−λ×s,μ+λ×s] (3) 将[μ−λ×s,μ+λ×s]作为判断CAN网络是否处于攻击状态的信息熵阈值区间,λ为标准差s的灵敏度。如果某个滑动窗口的信息熵不处于该区间内,则认为CAN报文传输出现了异常。
(3)检测准确度。在已有基于信息熵检测CAN报文网络异常研究中,通常采用检测过程中正确预测出的消息窗口数量与窗口总量的比例来评估检测的准确度,忽略了因滑动尺度设置过大导致部分攻击信息逃逸检测的情况。如图2所示,在窗口滑动过程中,红色被攻击报文恰处于相邻两个检测窗口中的不检测区域,成功逃避了CAN报文异常检测系统的感知,致使检测过程存在漏警。
为了全面准确评估检测精度,本文综合考虑了检测过程中的检测正确率和未被列入检测窗口的正常消息比例来度量基于信息熵检测CAN报文的准确度,计算过程如算法1所示
算法1 基于信息熵检测CAN报文的准确度算法 输入:CAN 报文集合Sdata 输出:检测准确度P(IDS) (1) 从Sdata中提取CAN 报文ID集SID; (2) 循环计算每个滑动窗口CAN报文的检测准确度: (a) 利用式(2)计算滑动窗口内的CAN报文ID 信息熵H(IDS); (b)将H(IDS)与S(IDS)进行比较,若H(IDS)∈S(IDS),则
判断窗口内报文正常;(c) 将检测结果与实际结果比较,得到单次检测的准确度; (d) 并统计未被列入检测窗口的正常消息比例。 (3) 综合每次窗口滑动检测结果,利用式(4)计算最终准确度。 P(IDS) = β1×TP + TNTP + FN + FP + TN + β2×sum∑j=1f(Ij)sum (4) f(Ij)={1,∀iattack∉Ij0,∃iattack∈Ij (5) 其中,sum为整个检测过程中窗口滑动的总次数;β1, β2为权重系数,且满足β1 + β2 = 1;当窗口滑动跨过的CAN报文集合Ij中存在攻击消息时,f(Ij)为0,否则为1;滑动尺度slidewin为未被检测到的CAN报文集合Ij大小,即slidewin = ‖Ij‖。
(4)检测时效性。检测时效性是度量CAN网络检测及时程度的有效指标,反映了网络异常检测的活跃程度以及未检逃逸的可能性。由于CAN报文传输具有随机离散特征,CAN报文到达周期的不确定性导致无法用时间来稳定表征每次检测的时效性;并且检测算法执行时间(微秒级)远低于等待报文到达的时间(毫秒级)。因此,本文采用更具稳定特征的滑动尺度与滑动窗口大小比值来评估CAN报文异常检测的及时性,并忽略检测算法的执行时延,建立如式(6)的检测时效性分析模型
E(IDS) = slidewinslidewin + sizewin (6) 在固定滑动窗口大小前提下,滑动尺度越小,检测频率越高,检测时效性就越好,异常未检逃逸的可能性就越低;但高频率检测会造成对车载计算、存储等资源的更高占用率。因此,适时调整检测时效性可以满足多样化检测场景提升检测响应性或者减小资源占用率等不同侧重性要求。
2.2 问题模型
为了表征CAN报文信息熵异常检测中如何提升准确度和响应时效性的优化问题,本文基于检测准确度和时效性指标,建立了CAN报文信息熵异常检测多目标优化数学模型,如式(7)所示
maxP(IDS),minE(IDS)s.t.sizewin=n∑k=1countkidnmin≤sizewin≤nmaxstepmin≤slidewin≤stepmaxvalmin≤λ≤valmax} (7) 其中,滑动窗口大小sizewin、信息熵标准差的灵敏度λ的设置变化对信息熵和检测准确度都有显著影响,窗口滑动尺度slidewin、滑动窗口大小sizewin的取值大小与检测时效性密切关联。为了兼顾正常运行、遭受网络攻击等不同场景需求,如何在较优的空间内设置合适的sizewin,slidewin,λ参数组合,是优化提升CAN报文网络攻击检测的准确度和时效性的关键。
3. 求解方法
3.1 总体思路
本文设计求解上述问题的总体思路包括优化训练检测模型、实时检测及反馈控制两个阶段,如图3所示。在优化训练检测模型阶段,通过大量CAN报文集合IDS进行线下训练,利用多目标优化算法计算输出检测模型帕累托前沿。在实时检测及反馈控制阶段,从优化训练输出的检测模型帕累托前沿选取初始参数组合,通过实时检测CAN报文信息熵是否异常来感知CAN网络运行状态,并依据感知到的状态,反馈调整检测模型的参数设置,以满足不同运行状态对检测准确性和时效性要求,提升适应不同检测场景的调整能力。在总体研究思路中,适应多样化场景的多目标优化算法设计和检测模型参数鲁棒控制机制是两项关键研究工作,下文将重点阐述。
3.2 多目标优化算法设计
由于CAN网络异常检测优化方案空间庞大,本文采用带精英策略的非支配排序的遗传算法NSGA-II进行求解,该算法通过快速非支配排序、引进精英策略、采用拥挤度等设计,能够降低非劣排序遗传算法的复杂性,同时具备运行速度快、防止过早陷入局部最优等优点。为了能够更好地平衡算法多样性和收敛性,本文在求解CAN网络异常检测多目标优化的帕累托前沿时,对NSGA-II做了如下改进:(1)在种群初始化中插入单目标较优解;(2)考虑梯度方向的拥挤度计算。基于改进型的NSGA-II算法的求解方法主要包括以下重要环节。
(1)染色体的编码方式。本文采用实数型编码方式对检测模型参数方案进行编码,编码形成的个体是由3个整数组成的有序序列St={s1,s2,s3},其中s1为滑动窗口大小。s2为窗口滑动尺度,s3为信息熵标准差的灵敏度。其中,s1, s2取整数值,s3取实数值。
(2)种群初始化。首先在滑动窗口大小、窗口滑动尺度、信息熵标准差灵敏度的规定区间内随机生成大小为N的种群,然后分别计算检测准确性的最优解P(IDS)best、检测时效性的最优解E(IDS)best,并将单目标最优解对应的染色体随机替换已生成的N种群中的任意两个染色体。单目标最优解属于多目标优化模型的帕累托前沿,在初始阶段将各单目标最优解作为参考值插入初始种群,有助于尽早搜索到多样化的最优解。
(3)拥挤度计算。由于每个目标函数值取值区间存在显著差异,传统基于拥挤距离的拥挤度难以反映个体在各个目标函数上分布的均衡性。这里定义第i个染色体的拥挤度为第i和第i+1个染色体的目标函数差值的绝对值与相应目标函数最优值的比值和,计算公式为
nd=|P(IDS)i−P(IDS)i+1|P(IDS)best+|E(IDS)i−E(IDS)i+1|E(IDS)best (8) 通过拥挤度计算,优先选择拥挤度较大的个体,使得计算结果在搜索空间内均匀分布,保持群体的多样性,避免陷入局部较优。
如图4所示,该算法基本流程与传统NSGA-II总体一致,本文不再赘述。
3.3 检测模型鲁棒控制机制
CAN网络在正常运行、遭受注入攻击和DOS攻击等不同状态下,CAN报文传输信息熵存在显著差异。本文充分利用这一特征,设计了基于CAN网络运行状态感知的检测模型参数鲁棒控制机制。该机制在实时检测CAN报文信息熵过程中,通过连续记录检测结果来感知CAN网络状态,并根据感知结果反馈调整检测模型参数,其总体流程如图5所示。
(1)运行状态感知策略。在正常运行状态下,CAN报文信息熵近乎完全属于正常信息熵区间,但由于ECU时钟偏移以及同类ID报文同时冲突传输等不确定因素会给CAN报文传输带来抖动,但这种抖动是偶发的,属于CAN报文正常传输范畴。这里定义满足条件listi+1abn−listiabn>ε的抖动可视为没有受到网络攻击,ε表示判别连续抖动为异常的阈值,当异常窗口序列集合中连续两次抖动的窗口序列listiabn,listi+1abn间隔大于ε时,将抖动视为正常传输情况,反之为异常。
重放攻击通常频繁注入多种已有ID消息,会造成CAN报文传输周期的频繁扰动,甚至是连续性扰动。这些扰动会造成信息熵多次、显著超出正常区间阈值。这里定义满足以下条件,即可视为CAN遭受注入攻击
(listi+1abn−listiabn<ε)∧(μ−λ×s−H(IDS)i+1>η)∨(H(IDS)i+1−(μ+λ×s)>η) (9) 当连续扰动窗口的序号小于阈值ε,且异常信息熵H(IDS)i+1小于正常区间下限或大于正常区间上限η时,可以判别为注入攻击。
拒绝服务(Denial of Service, DoS)攻击通常是利用优先级高的ID消息持续不间断地占据CAN总线,使得其他ID消息无法在CAN网络上正常传输,造成CAN报文信息熵持续性地大幅超出正常信息熵区间。判别感知DoS攻击的方式与式(9)类似,不同之处在于参数ε和η的取值更大。
(2)模型参数反馈调整机制。通过分析检测结果对正常运行、遭受注入攻击、DoS攻击等不同状态的判定,并根据检测模型帕累托前沿,选取合适参数进行调整:
(a)当反馈的检测结果长时间被判定为正常运行状态时,可以在帕累托前沿中,选取时效性较低的最优解更新检测模型参数。这种参数调整机制能够在保证准确度前提下,降低检测频率,从而节约使用车载网络环境有限的计算、存储等资源。
(b)当反馈的检测结果被判定为DOS攻击或注入攻击时,应当在帕累托前沿中,选取检测准确度和时效性都较高的最优解更新检测模型参数。这种参数调整机制能够提升检测的准确度和活跃程度,满足对网络攻击及时感知的要求。
4. 实验分析
4.1 实验数据
考虑到汽车不同运行环境下CAN报文数据内容的多样性、不确定性和保密性,本文从学术研究目的出发,使用韩国高丽大学攻击与对策研究实验室(Hacking and Countermeasure Research Lab, HCRL)公开的CAN报文数据库[17],并从数据库中采集了汽车在正常行驶状态下的30000条数据集,报文ID范围为0x001~0x7ff。该数据集能够反映现实生活中车载网络通信数据的基本特征,如表1所示。
表 1 CAN报文实验数据集数据集 数量 ID范围 Normal 30000 0x001~0x7ff DoS 36000 0x000~0x7ff Injection 36000 0x000~0x7ff 为了评估本文方法的有效性,本文模拟了两种攻击场景下(DoS和Injection攻击)的数据集。在模拟DoS攻击阻止CAN网络通信和服务场景中,将优先级最高的CAN报文(ID=0x000)块插入到正常数据集中,来生成DoS攻击数据集。在注入攻击场景中,本文采用了重放攻击,将合法CAN报文中的消息块复制到正常的车辆数据集,模拟非驾驶员控制的特定操作。两类攻击均随机插入200组攻击块,攻击块报文数量设置范围为5~60。
4.2 参数对检测模型的影响
利用上述CAN报文实验数据集,本文首先分析了窗口大小、滑动尺度和灵敏度对CAN报文信息熵和检测准确度的影响。
(1)CAN报文采样窗口大小对信息熵计算和检测准确度的影响。在窗口滑动尺度为5、信息熵阈值区间灵敏度为1.2条件下,设定CAN报文采样数量窗口初始大小为37,并按照步进为5依次增加至177,计算不同窗口大小下的正常信息熵阈值区间,计算结果如图6所示。从中可以看出,CAN报文采样窗口越大,信息熵阈值区间越小并趋于稳定。
在上述参数设置条件下,随着CAN报文采样窗口的逐步增大, CAN报文信息熵异常检测准确度从0.933逐步最高提升至1,总体呈现出在波动中递增的趋势,如图7所示。这种波动现象主要是由于CAN报文传输冲突等不确定性因素产生信息传输周期及序列抖动性造成的。
(2)窗口滑动尺度对信息熵计算和检测准确度的影响。在窗口大小为37、信息熵阈值区间灵敏度为1.2条件下,设定CAN报文采样窗口的滑动尺度初始大小为5,并按照步进为4依次增加至121,计算不同窗口滑动尺度下的正常信息熵阈值区间。如图8所示,当滑动尺度小于窗口大小时,CAN报文采样窗口的滑动尺度变化对信息熵阈值区间影响不大;但取值大于窗口大小后,对信息熵阈值区间的计算产生了波动不稳定影响。
如图9所示,在此种参数设置条件下,随着CAN报文窗口滑动尺度的逐步增大,CAN报文采集数据的入侵检测准确度发生了较大波动。同时,随着滑动尺度的增加,检测周期会明显变长,如图10所示,即检测的及时性逐步下降。
(3)信息熵阈值区间灵敏度对检测准确度的影响。在窗口大小为37、窗口滑动尺度为5条件下,设定信息熵阈值区间灵敏度初始大小为0.5,并按照步进为0.1依次增加至2.9,计算不同信息熵阈值区间灵敏度下的入侵检测准确度,从图11可以看出,随着信息熵阈值区间灵敏度的增加,入侵检测准确度逐步变大。
综合上述实验结果可以总结出:(1)采样窗口越大,信息熵越稳定,对检测稳定性及精度有促进作用;(2)窗口滑动尺度对信息熵计算影响不大,但过小的滑动尺度会增加本就非常有限的车载配置资源的开销负担,尤其会导致无网络攻击情况下的非必要频繁检测计算;过大的滑动尺度能够减小计算量,节约车载网络计算与存储资源,但会削弱检测时效性,甚至造成低频率注入攻击报文逃逸检测的可能;(3)正常信息熵的阈值区间灵敏度越大,入侵检测准确度逐步变大,能够提升针对于正常报文传输抖动的检测准确度。
4.3 多样化检测场景的适用性
(1)多目标优化方法的帕累托前沿。基于CAN报文实验数据集,设置种群规模为10、迭代次数为10代,利用本文提出的多目标优化方法,计算多目标优化帕累托前沿,如图12所示。其中,图12(a)表示每轮计算出的个体分布情况,图12(b)表示计算获得的帕累托前沿。在帕累托前沿中,准确度最高达到1,时效性最好为0.0096,表2给出了各非支配解的参数、准确度和时效性信息。
表 2 本文所提优化方法的帕累托前沿序号 参数 准确度 时效性 窗口大小 滑动尺度 阈值区间灵敏度 1 27 4 2.3625 1.000 0.1290 2 54 6 2.4146 0.999 0.1000 3 21 1 2.3821 0.994 0.0448 4 206 2 2.5523 0.992 0.0096 (2)适应多样化检测场景的分析。基于多目标优化方法的帕累托前沿,根据提出的检测模型参数鲁棒控制机制,可以对CAN网络正常运行、遭受网络攻击不同场景的异常检测模型做出适应性优化调整。
(a)在检测初始时刻可以选择表中序号为1的参数(窗口大小为27、滑动尺度为4、灵敏度为2.3625)作为初始设置,此时具有较优的检测准确度和时效性。
(b)在长时间检测过程中均未发现异常检测结果,可以将序号为2的参数(窗口大小为54、滑动尺度为6、灵敏度为2.4146)设置为新的检测参数,通过保持较大的滑动尺度,能够在满足高检测准确率的同时,节约计算与存储资源。
(c)在检测过程中多次或持续判别为异常时,通常是遭受DOS攻击、注入攻击等网络攻击,在这些攻击场景下,可以将序号为3的参数(窗口大小为21、滑动尺度为1、灵敏度为2.3821)调整为新的检测参数,在满足较高检测准确率的基础上,提升了检测时效性。
本文围绕CAN网络异常检测准确度,将本文方法与传统采用粒子群算法优化方法进行比较分析。在传统粒子群优化方法PSO实现过程中,将窗口大小、滑动尺度、灵敏度作为粒子位置的元素,第i个粒子位置可表示为xi=(sizewin,i,slidewin,i,λ,i),对应的第i个粒子的速度表示为vi=(vi,1,vi,2,vi,3),第i个粒子可根据如式(10)和式(11)[25]更新自己的速度和位置
vi(t)=ω×vi(t)+c1×r1×(pi−xi(t−1))+c2×r2×(pg−xi(t−1)) (10) xi(t)=xi(t−1)+vi(t) (11) 其中,pi表示粒子i的局部最优解,pg表示粒子种群的全局最优值,ω为惯性参数,c1和c2为加速因子,r1,r2为0和1之间的随机小数。在PSO方法中,设置检测准确度为其适应度函数,设定ω = 0.8, c1 = c2 = 2,粒子群规模为200,迭代轮数阈值为100轮。
利用相同实验数据集,计算获得上述粒子群优化方法的最优检测准确度为0.957。从图13(a)可以看出,本方法在初始检测状态、长期正常状态和遭受攻击时的检测准确度分别为1,0.994和0.999,都具有更高的检测准确度。与此同时,如图13(b)所示,提出的检测模型鲁棒控制机制能够在遭受攻击时调整时效性(滑动尺度降低为1),提升检测频次,防止出现异常未检逃逸的情况,优先满足快速检测响应要求;在长期正常状态下滑动尺度调增为6,降低检测频次,满足更低的检测资源占用率。
(3)多种攻击策略下的不同检测方法准确度比较分析。重放攻击是模拟CAN网络遭受攻击的一种常用方式[2,24],这种攻击方式可以通过改变注入CAN报文的数量和频次来模拟不同的攻击力度,能够为CAN网络异常检测方法验证提供丰富的攻击场景。为了进一步比较分析本文提出方法的检测效果,采用重放攻击设计CAN报文数量递增、注入频次递减两种攻击策略,并与基于固定时间窗口的信息熵异常检测方法[26](Fixed Time Windows, FTW)进行比较分析。设定FTW方法中的固定时间窗口为0.1 s,本文方法中窗口大小等参数选用帕累托前沿中序号为2的参数,即窗口大小为54、滑动尺度为6、灵敏度为2.4146。
(a)报文数量递增策略下的比较分析。在注入报文数据量逐渐递增的攻击策略下,首先从原始CAN报文测试集中选取不同长度的CAN报文数据块,然后按照固定频次注入到CAN报文测试集中。这里依次选取重放数据块大小为5, 10, 15, 20, 25, 30, 35, 40, 45, 50条报文,这10种注入数据块都按照间隔60条报文的相同频次注入。如图14所示,在注入频次固定的前提下,两种方法的检测准确度都随着注入数据块的依次增大而逐步提升。对比结果显示,在数据块递增过程中,本文方法的检测准确度都要高于FTW方法。尤其数据块大小较小、重放攻击较隐蔽时(例如数据块大小为5),本文方法检测准确度近乎FTW方法的2倍;当注入数据递增到25条报文时,本文方法的检测准确度率先逼近100%。
(b)注入频次递减策略下的比较分析。在重放攻击注入频次递减的攻击策略下,首先从原始CAN报文测试集中选取固定长度的CAN报文数据块,然后按照不同频次注入到CAN报文测试集中。这里选取重放数据块大小为5条报文,设定注入频次依次为间隔10, 20, 30, 40, 50, 60, 70, 80, 90, 100条报文。显然,注入间隔的报文数量越大,注入频次越小、攻击越隐蔽。如图15所示,在注入数据块大小保持不变的情况下,两种方法的检测准确度都随着注入间隔的依次增大而逐步降低。但在注入频次递减过程中,本文方法的检测准确度要高于FTW方法;当注入间隔报文递增到40条以上时,注入频次变小、攻击较隐蔽,本文方法的检测准确度显著高于FTW方法。
5. 结束语
CAN网络安全问题是智能网联汽车网络安全关注的重点,准确、及时的异常检测是增强 CAN网络安全的有力保障。本文在建立CAN网络异常检测评估指标模型和多目标优化问题基础上,提出一种能够在车载资源约束下,适应多样化场景的CAN报文信息熵异常检测方法。通过设计求解多目标优化问题的NSGA-II算法,来获取多目标优化方法的帕累托前沿,并将帕累托前沿作为CAN网络异常检测模型参数的优化调整空间,提出了适应多样化场景的检测模型参数鲁棒控制机制。通过实验分析表明,所提方法能够满足正常运行、遭受网络攻击等不同场景对CAN网络异常检测的准确性和响应性要求,增强CAN网络的安全性。
本文方法可以优化提升CAN网络异常检测的准确度和时效性,并且能够针对多种检测场景自适应调整。但该方法无法确保入侵检测方法自身的安全性,例如计算获取的最优解集被恶意篡改等,这些网络攻击行为会使入侵检测方法失效,甚至做出错误判断。为此,在后续研究工作中,需要融合内生安全、群体智能等技术,探索如何提升CAN网络入侵检测系统自身安全性问题。
-
梁南元,汉语计算机自动分词知识,中文信息学报,1989,4(2),29-33.[2]王德春,应用语言学概论,上海,上海外语教育出版社,1997年12月第1版,88-120.[3]E. Charniak, C. Hendrickson, N. Jacoboson, M. Perkowitz, Equations for part-of speech tagging,AAAI-93, 1993, 784 789.[4]K. Church, A stochastic parts program and noun phrase parser for unrestricted text, ANLP-88,1998, 136-143.[5]S. Sakai, Morphological category bigram: A single language model for both spoken language and text, ISSD-93, 1993, 97-90.[6]M. Yamamoto, A re-estimation method for stochastic language modeling from ambigous obser-vations, in Proceeding of WVLC-96, California, 1996, 155-167.[7]赵以宝, 孙圣和, 一种基于单字统计二元文法的自组词音字转换算法,电子学报, 1998, 26(10), 55-58.[8]F. Jelinek, Self-Organized Language Modeling for Speech Recognition, IBM Research Report,IBM T, J. Watson Research Center, 1985. Reprinted in Reading in Speech Recognition, Waibel,A., and Lee, K-F. (Eds.), Morgan Kaufann Publishers, 1990, 450-506.[9]S.M. Katz, Estimation of probailities from sparse data for the language model component ofspeech recognizer, IEEE Trans. on Acousttics, Speech, and Signal Processing, 1987, ASSP-35(3),400-401.[10]R. Rosenfeld, The CMU statistical language modeling toolkit and its use in the 1994 ARPA CSR evaluation, In the Proc. of ARPA Spoken Language Systems Technology Workshop, Washington, 1995, 47-50. 期刊类型引用(8)
1. 张云,姚慧雨,张倩,李高鹏. SAR抗转发式干扰波形设计与优化. 哈尔滨工业大学学报. 2024(09): 17-30 . 百度学术
2. 温镇铭,王国宏,张亮,于洪波. 基于正负频偏脉冲压缩相参积累的移频干扰鉴别方法. 电子与信息学报. 2023(08): 2936-2944 . 本站查看
3. 张亮,王国宏,杨志国,张翔宇,李思文. 利用回波时频相关差异的雷达欺骗干扰识别方法. 西安交通大学学报. 2021(02): 136-142 . 百度学术
4. 张亮,王国宏,张翔宇,李思文,辛婷婷. LFM雷达对抗移频干扰方法研究. 电子学报. 2021(03): 510-517 . 百度学术
5. 罗雪平,曹运合,胡奇,陈术涛,闫士杰,蔡昔. SAR成像导引头干扰建模评估与仿真系统设计. 系统仿真学报. 2021(08): 1927-1937 . 百度学术
6. 王宏艳,降佳伟,蒲娟,吴彦鸿,冉达. 基于余弦幅度加权的低旁瓣多相位分段调制干扰方法. 系统工程与电子技术. 2021(11): 3185-3193 . 百度学术
7. 牛朝阳,王建涛,胡涛,刘伟,李润生. 极化合成孔径雷达有源干扰的干信比方程. 系统工程与电子技术. 2021(12): 3542-3551 . 百度学术
8. 周胜文,沙明辉,胡小春. 基于梳状谱调制和间歇采样重复转发的复合干扰. 系统工程与电子技术. 2021(12): 3495-3501 . 百度学术
其他类型引用(7)
-
计量
- 文章访问数: 4125
- HTML全文浏览量: 175
- PDF下载量: 1288
- 被引次数: 15