信息检索中的聚类分析技术
The Clustering Analysis Technology for Information Retrieval
-
摘要: 信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度,将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。Abstract: The rapid development of Information Retrieval(IR) and search engine improves recall rate greatly, whereas the enhancement on both precision rate and information retrieval efficiency is not clear. The research on document clustering and multi-document keyword extraction will help solve this problem. The basic idea is to cluster part of the documents returned by search engine, and automatically extract some keywords for each cluster. Thus user can judge whether the documents in each cluster are relevant to his need. In this paper the concept of document relevancy and cluster relevancy are proposed, and both word frequency and the concept relevancy model of HOWNET are used to compute cluster relevancy, which is used to guide the merging process of clusters. The experimental results show that the IR efficiency has improved greatly.
-
1. 引言
急性下壁心肌梗死(Acute inferior Myocardial Infarction, AMI)是一种常见的急性致命性的疾病,临床表现为冠状动脉阻塞引起供血不足而导致心肌缺血坏死。由于心肌血管血流阻断,短时间内患者心功能减退及低血压等症状,严重者可危及生命[1]。12导联心电图(Electro Cardio Gram, ECG)是临床判断下壁心肌梗死的主要手段和依据,心肌梗死的诊断对时效性要求很高,胸痛中心要求从接到急救通知到介入手术开始的时间控制在90 min以内为最佳救助时间。因此,为提高医生的诊断效率,能够早诊断、早治疗,开展急性下壁心肌梗死疾病的智能辅助诊断是一项具有重要临床意义的工作。
近年来,ECG自动辅助诊断算法主要应用于心律不齐疾病方面[2-4],由于开源数据库数据来源单一及波形识别难度较高,针对心肌梗死疾病自动检测的成果展现较少。Martis等人[5]使用傅里叶变换、离散小波变换[5]等传统方法对心拍信号进行分类,但此类传统方法比较依赖于ECG信号本身的质量,噪声过大或波形不佳均会影响后期的检测准确率,而机器学习算法可以较好地解决此类问题。早在2004年Haraldsson等人在文献[6]中提出,使用ANN(Artificial Neural Network)来识别心肌梗死疾病,心肌梗死疾病识别的准确率为94%,但该系统需要医生在前期对病例进行输入参数修改和预分类工作,不能够达到诊断的完全自动化。随着疾病智能诊断技术的发展,Dohare等人[7]使用12导联心电图形态特征提取与SVM(Support Vector Machines)分类器相结合的方法针对心肌梗死进行了识别,但缺少对心脏具体梗死部位的识别,比如识别下壁心肌梗死与前壁心肌梗死等等。文献[8]提到,使用KNN(K-Nearest Neighbor)算法针对心脏具体梗死部位进行识别,数据来源为PTB (Physikalisch-Technische Bundesanstalt)开源数据库,但该算法使用的数据库单一,缺少临床数据的验证,使得模型缺乏泛化能力。
针对以上问题,本文提出了一种基于形态特征提取的急性下壁心肌梗死BiLSTM网络辅助诊断算法,同时适用于PTB数据库与胸痛中心数据库,该算法的准确率和灵敏度均达到99%以上,对于下壁心肌梗死疾病的临床辅助诊断具有重要的理论指导意义。
2. 算法描述
本算法主要从数据获取与清洗、数据预处理、QRS波群(医学上将心电的Q波、R波和S波一起称为QRS波群)检测与心拍分割,波形的幅值特征与距离特征提取,搭建长短期记忆(Long Short-Term Memory, LSTM)网络与BiLSTM (Bi-directional Long Short-Term Memory)神经网络进行模型建立与自动检测几个方面来叙述。算法整体流程如图1所示。
3. 数据预处理与特征提取
3.1 心电数据获取与清洗
12导联心电数据主要来源于胸痛中心CPC(Chest Pain Center)与PTB(Physikalisch – Technische Bundesanstalt)数据库。
(1) CPC数据库提供了从2015年到2018年的500例12导联心电数据,由3位副主任医师对该数据进行疾病分类标注,清洗与筛选掉由于电极片接触不良等导致无效数据的病例,选取患者12个导联心拍完整的部分进行后续数据处理。诊断患有下壁心肌梗死病人52例,正常心电图有33例,信号的采样频率为500Hz。
(2) PTB数据库是国际上公认的心肌梗死12导联心电数据库[9],在心电领域具有一定权威性,得到广泛的认可。其中心肌梗死患者共有148例,正常心电图共有80例。为与CPC数据库保持样本平衡,本文取其中诊断患有下壁心肌梗死患者30例,正常心电图20例,信号的采样频率为1000 Hz。
3.2 异源数据分析
异源数据库的信号除了采样率有差别,信号质量也有所差异,这种差异增大了模型建立和检测的难度。信息熵是衡量数据混乱程度的度量,其计算如式(1)所示
Hs=−n∑k=0P(k)log2P(k) (1) 其中,
P(k) 表示在某区间内,有效信息所占样本量的比例。图2为本文对CPC数据与PTB数据做的熵值对比图,横坐标为12个导联。由图可知,两种数据库的心电数据质量具有较大差别,其中CPC的临床数据的混乱程度较高。
3.3 心电数据预处理与心拍分割
数据库原始心电数据主要存在基线漂移的低频噪声,工频干扰和肌电干扰的高频噪声。为使后续QRS波群定位准确,波形有效信息不失真,特征提取准确,针对CPC数据库与PTB数据库的特点,本文选用通频带内的频率响应曲线最为平坦,没有起伏的Butterworth滤波器,滤除35 Hz以上的高频信息和0.9 Hz以下的低频信息。
一个心电信号的心拍通常由P波、QRS波群,T波组成,如图3所示。
本文使用优化经典的Pan-Tompkins(PT)算法[10]对12导联心电数据进行分导联QRS波群定位与心拍分割,算法框图如图4所示。
由于R波在一个心拍中占前2/5的位置,如图3所示。在QRS波群定位后,以R波位置为基准,对心电信号进行前后对应比例的截取,将数据样本统一为250个采样点的数据段,完成心拍分割。
3.4 波形的幅值特征与距离特征提取
根据心内科临床医学指南定义[11],心肌下壁的位置产生了和疾病相关的异常电生理信号,主要体现在12导联中II,III与AVF这3个导联中,而下壁心肌梗死在12导联心电图上主要表现为:
(1) II, III与AVF导联上ST段抬高;
(2) II, III与AVF导联有病理性Q波。
因此,本方法根据R波定位后,主要采用数学形态学方法,通过一系列的多值变换,根据形态学特征,处理信号的斜率、幅值正负的波峰波谷等变化,前后寻找Q波和S波的波谷,定位出Q波、R波和S波[12]。以CPC数据库中一位患有下壁心肌梗死疾病的12导联心电图中AVF导联为例,其波形定位结果如图5所示。
根据Minchole等人[13]提到的ST段电位测量点定位法,得到心拍ST段的电位信息,该方法已得到了广泛的应用。计算式为
XST(i)=XR+0.04×fs+0.13√TRRi10⋅fs (2) 其中,
XST(i) 指ST段的起始测量点,XR 指R波波峰的坐标位置,fs 为整体心电信号的采样频率,TRRi 为整体心电信号的RR间期。综上所述,为减少导联数量,本文提取每个心拍12导联中的II, III与AVF 3个导联的数据,提取以下有效特征,如表1所示。
表 1 特征提取说明表特征类型 特征说明 特征表示 12导联波形距离特征 RR间期 TRR QR间期 TQR ST段电位起测点 XST 分导联波形幅值特征 Q波幅值:II, III与
AVF导联VQII,VQIII,VQAVF R波幅值:II, III与
AVF导联VRII,VRIII,VRAVF 4. 网络结构模型建立
长短期记忆(LSTM)网络模型近年来常常应用于自然语言处理、计算机视觉等多个领域,对于时序性结构数据、时变非线性信号等,LSTM模型拥有更加出色的表现。根据心电信号的时变非线性与特征之间存在关联性等特点[14],本文选用LSTM模型进行检测。
4.1 LSTM模型结构
LSTM模型在结构模块中,增添了遗忘门(forget gate)、输入门(input gate)和输出门(output gate) 3个选择性模块(如图6),此模块对输入的信息进行控制和保护,能够更加充分地筛选相对应的特征[15]。
图6中,遗忘门由一个简单的前馈神经网络控制,用来控制上一个时段信息的遗忘程度,如式(3)所示
ft=σ(Wf[xt,ht−1]+bf) (3) 其中,
xt 为输入序列,ht−1 为上一个时序模块的输出。Wf 为遗忘门的权值向量,bf 为对应的偏置向量,σ 为一个sigmoid函数,若函数的输出接近于0,则前一个时序的细胞状态将会被遗忘。输入门的输出变量如式(4)所示
Ct=ft×Ct−1+itטCt=σ(Wf[xt,ht−1]+bf)×Ct−1+σ(Wi[xt,ht−1]+bi)×tanh(Wc[xt,ht−1]+bc) (4) 其中,
Ct−1 为上一个时序模块的细胞状态,输出门的输出变量如式(5)所示ht=tanh(Ct)×ot=tanh(Ct)×σ(Wo[xt,ht−1]+bo) (5) 而图6中虚线的状态即
Ct 代表了长时记忆,而下面的ht 代表了短时记忆或工作记忆。本文搭建的LSTM神经网络结构示意图及向量维数如图7所示。
4.2 双向LSTM
本文在LSTM网络模型的基础上,采用双向LSTM(BiLSTM)网络模型[16]对下壁心肌梗死疾病进行识别检测。双向LSTM网络结构示意图如图8所示。
构建的网络中,前向和后向的网络互相独立,互不连接,将BiLSTM每一步输出变量进行拼接,形成特征向量,最后构建全连接层,运用权值共享。
5. 实验结果与讨论
由于CPC数据样本不够充足,本文采用5折交叉验证的方式进行数据训练及模型验证,从中选择最优的分类模型,再使用与训练集相斥的测试集对模型进行测试,最后确定最终的分类模型。5折交叉验证方法如图9所示。
本文使用的心拍数据集共包含1811个心拍,划分数据集后训练集占80%,测试集占20%,再将训练集按照5折交叉验证方式划分出验证集与训练集,具体划分情况如表2所示。
表 2 数据集分布情况数据来源 心拍数/个 总计 训练集(80%)/个(5折交叉验证) 测试集(20%)/个 训练集(80%)/个 验证集(20%)/个 CPC 811 1811 1159 289 363 PTB 1000 为了验证神经网络搭建合理性,本文采用softmax交叉熵损失函数对训练集和测试集分别进行损失分析,如式(6)所示
E(t,y)=−∑jtjlnyi (6) 其中,
t 和y 分别表示神经网络的类别标签和实际识别输出值,yi 表示softmax损失函数yi=softmax(zj)=ezj∑jezj (7) 本文使用Tensorflow搭建LSTM与BiLSTM神经网络模型框架,网络模型参数设置如表3所示。
表 3 网络模型参数网络模型 参数 LSTM Epoch=1200 Maxiters=1000 Learining rate=0.00035 Forget bias=1.0 BiLSTM Epoch=1000 Maxiters=1000 Learining rate=0.001 Forget bias=0.6 针对二分类识别算法,为更好地评估模型,本文同时引入精度(precision)和灵敏度(sensitivity)[17]。表达式如式(9)、式(10)
precision=TPTP+FP×100% (8) sensitivity=TPTP+FN×100% (9) 其中,
TP 表示被正确分类的个数,FP 表示其他类别被分到本类别的个数,FN 表示本类别被错误地分到其他类别的个数,综合这两个评估参数,引入F1-Score评估指标。由于本文是二分类评估,因此精准率和灵敏度同样重要,则原F1-Score计算式中β 取值为1,计算方法为F=2×precision×sensitivityprecision+sensitivity (10) F值越高,代表模型分类效果越好。本文提出的算法的性能评估参数如表4所示。
表 4 5折交叉验证分类评估指标值本文算法 评估指标 验证集D1 验证集D2 验证集D3 验证集D4 验证集D5 平均值 形态特征提取+LSTM 混淆矩阵 TN FN 123 1 125 3 117 1 128 1 111 1 NA FP TP 1 165 3 159 1 171 2 158 1 176 Acc(%) 99.31 97.93 99.31 98.96 99.31 98.96 precision(%) 99.40 98.15 99.42 98.75 99.44 99.03 sensitivity(%) 99.40 98.15 99.42 99.37 99.44 99.16 F1-Score(β=1) 99.40 98.15 99.42 99.06 99.44 99.09 形态特征提取+BiLSTM 混淆矩阵 TN FN 129 0 114 1 117 2 131 1 116 0 NA FP TP 0 161 1 174 3 168 1 156 0 173 Acc(%) 100.00 99.31 98.28 99.31 100.00 99.38 precision(%) 100.00 99.43 98.25 99.36 100.00 99.41 sensitivity(%) 100.00 99.43 98.82 99.36 100.00 99.52 F1-Score(β=1) 100.00 99.43 98.53 99.36 100.00 99.46 取5折交叉验证的5组训练模型中,训练效果较好的一组,对LSTM模型与BiLSTM模型分别做出了损失(Loss)曲线与准确率(Acc)曲线结果分析,如图10所示。
由图10(a)、图10(b)的左侧针对训练集和测试集的两条Loss曲线可以看出,两种模型最后都趋于稳定状态,而右侧针对训练集和测试集得到的Acc曲线表示两种模型均未达到过拟合状态,且分类效果良好。其中图10(a)中LSTM神经网络模型Loss曲线收敛相对较慢,最后测试集准确率一直在98.96%上下浮动,而图10(b)中BiLSTM神经网络模型的Loss曲线收敛相对较快,准确率曲线最后趋于99.38%。
使用5折交叉验证选取的最优模型对与训练集互斥的测试集进行测试,获取的测试结果如表5所示。
表 5 模型测试集分类评估指标值本文算法 混淆矩阵 Acc(%) precision(%) sensitivity(%) F1-Score(β=1) 形态特征提取+LSTM 152 3 98.90 99.52 98.57 99.04 1 207 形态特征提取+BiLSTM 152 0 99.72 99.53 100.00 99.76 1 210 由表4的5折交叉验证的平均结果可以看出,形态特征提取与BiLSTM神经网络相结合的模型F-Score评分较高,模型平均准确率达到99.38%,精度达到99.41%,灵敏度达到99.52%。表5表示形态特征提取与BiLSTM神经网络相结合的模型在没有经过训练的测试集上,准确率达到99.72%,由此看见,利用本文方法可以对急性下壁心肌梗死疾病进行准确的检测。
表6为一些急性心肌梗死智能诊断方法之间的比较,在下壁心肌梗死识别的准确率上,本文算法较其他现有算法提高了1%,灵敏度表现相对较好。从表6中可以看出,本文提出的算法适用于CPC数据库和PTB数据库,泛化能力较强,可以识别出急性下壁心肌梗死疾病,对于临床应用具有重要意义。
表 6 急性心肌梗死智能诊断方法比较作者,年份 分类方法 导联数量 结果 Dohare et al., 2018[7] 形态特征提取,SVM分类 12 心梗检测:Acc = 96.66%, sensitivity= 96.6% Acharya et al., 2016[8] 离散小波变换,非线性特征提取,KNN分类 12 心梗部位检测:Acc = 98.74%, sensitivity= 99.55% Safdarian N, 2014[18] ANN, PNN, KNN, 多层感知器分类 12 心梗部位检测:Acc = 76% Sharma L D, 2018[19] 平稳小波变换,KNN分类 3 心梗部位检测:下壁Acc = 98.69%, sensitivity= 98.67% 平稳小波变换,SVM分类 3 心梗部位检测:下壁Acc = 98.84%, sensitivity= 99.35% 本文所提 多导联形态特征提取,LSTM网络分类 3 心梗部位检测:下壁Acc = 98.90%, sensitivity= 98.57% 多导联形态特征提取,BiLSTM网络分类 3 心梗部位检测:下壁Acc = 99.72%, sensitivity= 100.00% 6. 结束语
本文所提12导联形态特征与BiLSTM网络相结合的算法的准确率达到99.72%,同时F1-Score评分达到99.76,该算法使用了包括公开数据集在内的多中心临床数据交叉验证,具有广泛的临床实用性;此外比较其它下壁心肌梗死识别的算法分类更为精准。本研究内容可大幅度地提高临床诊断效率,减少心梗的诊断时间,大幅度缩短临床诊断时间,挽救患者生命。基于本文算法研究,后续考虑增加不同数据库的数据,提高并验证本文算法对疾病数据测试的鲁棒性,且在保证算法准确率的基础上,减少导联数量,进一步优化本算法。
期刊类型引用(12)
1. 赵凤. 基于混沌置乱与DNA计算的彩色图像加密算法. 德州学院学报. 2020(04): 21-26+34 . 百度学术
2. 李红梅,徐凌. 基于斜帐篷映射的混沌加密置乱算法研究. 长春师范大学学报. 2019(06): 67-71 . 百度学术
3. 吕冬梅,李国东,王丽娟. 基于变参混沌的异位异或图像加密算法. 包装工程. 2019(17): 227-234 . 百度学术
4. 陈子豪,苗博,殷旭东. 基于多混沌系统和DNA编码的数字图像分块加密算法. 常熟理工学院学报. 2019(05): 47-52 . 百度学术
5. 侯震. 猪繁殖和呼吸障碍综合征病毒GP5蛋白的原核表达. 畜禽业. 2018(10): 6+8 . 百度学术
6. 邹红霞,齐斌,王宇,李冀兴. 基于联盟链和DNA编码的局域网加密技术. 信息网络安全. 2018(12): 31-37 . 百度学术
7. 朱淑芹,李俊青. 参数扰动下的混沌的图像加密方案. 计算机科学. 2017(S1): 356-360+384 . 百度学术
8. 王丽燕,柳扬. 基于污染二维混沌动力系统的加密算法. 大连理工大学学报. 2016(06): 650-656 . 百度学术
9. 周小安,李耀清. 基于DNA乱序编码和混沌映射的图像加密算法. 智能计算机与应用. 2016(05): 11-16 . 百度学术
10. 禹思敏,吕金虎,李澄清. 混沌密码及其在多媒体保密通信中应用的进展. 电子与信息学报. 2016(03): 735-752 . 本站查看
11. 鄢懿,张灿,郭振永,高绍帅,陈德元. 基于混沌密钥控制的联合信源信道与安全算术码编译码算法. 电子与信息学报. 2016(10): 2553-2559 . 本站查看
12. 彭珊,龙敏. 结合DNA编码和混沌的图像选择区域加密. 应用科学学报. 2015(06): 655-662 . 百度学术
其他类型引用(10)
-
计量
- 文章访问数: 2172
- HTML全文浏览量: 137
- PDF下载量: 810
- 被引次数: 22