Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种改进的区间型不确定数据模糊聚类方法

肖满生 张龙信 张晓丽 胡永祥

肖满生, 张龙信, 张晓丽, 胡永祥. 一种改进的区间型不确定数据模糊聚类方法[J]. 电子与信息学报, 2020, 42(8): 1968-1974. doi: 10.11999/JEIT190591
引用本文: 肖满生, 张龙信, 张晓丽, 胡永祥. 一种改进的区间型不确定数据模糊聚类方法[J]. 电子与信息学报, 2020, 42(8): 1968-1974. doi: 10.11999/JEIT190591
Mansheng XIAO, Longxin ZHANG, Xiaoli ZHANG, Yongxiang HU. An Improved Fuzzy Clustering Method for Interval Uncertain Data[J]. Journal of Electronics & Information Technology, 2020, 42(8): 1968-1974. doi: 10.11999/JEIT190591
Citation: Mansheng XIAO, Longxin ZHANG, Xiaoli ZHANG, Yongxiang HU. An Improved Fuzzy Clustering Method for Interval Uncertain Data[J]. Journal of Electronics & Information Technology, 2020, 42(8): 1968-1974. doi: 10.11999/JEIT190591

一种改进的区间型不确定数据模糊聚类方法

doi: 10.11999/JEIT190591
基金项目: 国家自然科学基金(61702178),湖南省自然科学基金(2018JJ4068),湖南省教育厅科研项目(18C0499)
详细信息
    作者简介:

    肖满生:男,1968年生,教授,主要研究方向为智能计算和智能信息处理

    张龙信:男,1983年生,博士,讲师,研究方向为大数据与数据安全

    张晓丽:女,1994年生,硕士,研究方向为智能信息处理

    通讯作者:

    肖满生 xiaomansheng@tom.com

  • 中图分类号: TN911.7; TP391

An Improved Fuzzy Clustering Method for Interval Uncertain Data

Funds: The National Natural Science Foundation of China (61702178), The Natural Science Foundation of Hunan Provierce (2018554068), The Research Project of Hunan Provincial Department of Education (18C0499)
  • 摘要:

    针对区间型不确定数据的特点,该文提出一种改进的模糊C均值聚类算法(IU-IFCM)。首先对区间型数据进行特征变换,由p维特征映射成由2p维特征组成的实数据,然后考虑区间中值与区间大小关系,设计一种样本距离计算方法,通过模糊C均值实现对区间型样本聚类。理论分析与对比实验表明,该算法的划分系数(PC)及正确等级(CR)值比其它方法平均提高10%以上,表明有更好的聚类精度,对当前大数据环境下不确定数据的分类提供了一种新的解决方案。

  • 在大数据环境下,存在一类模糊的、不确定的数据,如人们交流中的语言数据、天气预报的气温数据、各种仪器工具测量得到的不精确数据等,这些数据常用区间值形式表示,因此如何分析与处理该类数据是当今数据分析与研究的主要内容之一[1-4]

    在对精确数据的聚类分析中,模糊C均值(Fuzzy C-Means, FCM)聚类方法是应用最广泛的一种方法,FCM算法不但理论完善,聚类效率高,而且能实现无监督聚类分析。然而对于包括区间数在内的不确定数据,传统的FCM算法无法直接操作,只能通过对其改进或其它方法来完成该类数据分析与处理[5-9]。如针对区间数的聚类分析,Gao等人[10]率先提出了一种将区间数从p维空间直接变换到2p维空间的“实”数据的方法来实现FCM聚类,但没有给出变换时与区间大小、区间中值直接相关的影响因子β的取值依据与大小;Maciel等人[11]提出了参与学习的模糊聚类,它用Hausdorff距离来计算区间数相似度,但方法中使用了太多的参数α,β,t,λ,且所有参数都人为给定,降低了分类的精度;Bao等人[5]与兰蓉[12]通过设计一种新的区间数距离公式来使用FCM算法聚类,然而在计算过程中,区间数中各维特征的权重设计复杂;金萍等人[13]在近似骨架理论的基础上,提出了一种近似骨架启发式聚类算法(APPGUL),解决了不确定数据聚类对初始值敏感的问题;魏方圆、黄德才[14]首次提出区间数密度可达与相连的概念,综合数据的统计信息来表达不确定性数据;此外还有文献[15-17]都对不确定数据或不确定数据流的分类方法进行了研究,这些方法各有优势,但都存在某些不足。

    本文在分析上述文献中有关区间数据聚类的基础上,提出了一种改进的区间型不确定数据聚类的FCM算法(IU-IFCM),将区间型数据变换成由区间中值与区间大小相关的精确实数据,然后采用FCM算法进行聚类实现,方法思路清新,理论依据充分,且易于实现,实验结果表明对区间型不确定数据有较好的聚类效果。

    设一观测样本集ˉX={ˉx1,ˉx2,···,ˉxk,···,ˉxn}包含n个样本,其中每个样本ˉxk=(ˉxk1,ˉxk2,···,ˉxkj,···ˉxkp)p维特征矢量,每个特征ˉxkj=[xkj,x+kj]I(R+)用一个区间数描述,xkjx+kj分别为区间左右端点值,其中R+为全体正实数集合,I(R+)是由正实数组成的区间数集合,则ˉX为一组由区间数组成的观测样本的特征矢量集,假定这组数据有c个自然结构,采用传统的FCM直接聚类,有2种实现算法。

    算法1:基于区间端点的直接聚类

    该方法直接将区间数的左右2个端点分开,然后采用传统的FCM算法分别对区间值的左右端点直接聚类,分别得到左右端点的聚类中心与隶属度,具体过程如下:

    步骤 1 设定迭代停止阈值ε,初始化聚类中心的区间左右端点v(0)=[v(0),v+(0)],设计迭代计数器b=0

    步骤 2 分别计算样本ˉxk的左右端点(xk,x+k)与聚类中心ˉvi(vi,v+i)的左右端点的Euclid距离,即

    D2E(xk,vi)=pl=1(xklvil)2,D2E(x+k,v+i)=pl=1(x+klv+il)2 (1)

    步骤 3 依据式(1),计算区间数左端点的隶属度u(b)ik,即如果i,r,使DbE(xr,vi)=0,则u(b)ir=1,且对kr, u(b)ir=0,否则按式(2)计算区间左端点的隶属度

    u(b)ik={cj=1[(D(b)E,(vi)/D(b)E(xk,vj))2/(m1)]}1 (2)

    区间右端点的隶属度计算方法同左端点一样。

    步骤 4 用式(3)分别更新聚类中心的区间左右端点vˉ+(b+1)

    viˉ+(b+1)=nk=1(uˉ+(b)ik)mxˉ+k/nk=1(uˉ+(b)ik)m (3)

    步骤 5 如果DE(vˉ+(b),vˉ+(b+1))<ε或达到设定的最大迭代次数,算法终止并输出由区间左右端点组成的聚类中心,否则b=b+1,转步骤1:。

    算法中i=1,2,···,c,k=1,2,···,n,算法1虽然调用了经典FCM算法,但由于该算法分别通过区间数的左右端点来获得聚类中心的区间值的左右端点,因此聚类中心区间值的左右端点相互独立,只与样本的区间左右端点有关。另外,算法所获得的每个样本的左右端点的隶属度也可能不一样,甚至差别很大,即每个样本的隶属度可能有2个不同的值,因而该聚类方法不够准确,甚至会产生错误的数据分类。

    算法2:基于区间中值的FCM直接聚类

    算法1通过对测量样本的区间左右2端点值分别进行聚类,由于在聚类过程中割裂了样本的左右区间端点的联系,因而聚类结果不理想,基于此,算法2考虑了区间数据的左右端点间联系,将区间数ˉxkj转化为区间中值.xkj,即.xkj=(x+kj+xkj)/2, k=1,2,···,n,j=1,2,···,p,其中n为样本个数,p为每个样本的特征数,然后直接调用传统的FCM算法对样本中值进行聚类,得到最终的隶属度与聚类中心,如式(4)与式(5)所示,具体过程与算法1类似,此处不再赘述。

     u(b)ik={cj=1[(d(b)(.xk,.vi)/d(b)(.xk,.vj))2/(m1)]}1 (4)
    .v(b+1)i=nk=1(u(b)ik)m.xk/nk=1(u(b)ik)m (5)

    式(4)中的d(.xk,.vi)为样本与聚类中心区间中值的欧氏距离,聚类完成后再利用式(6)恢复聚类中心的区间型值

    vˉ+ij=nk=1(uik)mxˉ+kj/nk=1(uik)m (6)

    其中uik为算法收敛后的隶属度。

    本算法通过把区间值直接转化为区间中值而调用经典FCM算法进行聚类,由于没有考虑区间大小(宽度)对聚类的影响,使得只要是相同中值的区间数就具有相同的隶属度,这种聚类显然存在着缺陷与不足。

    该算法算法3使用的测量样本同2.1节一致,其核心是采用划分的方法求出区间数的距离,详见文献[5],然后基于该距离调用经典的FCM获得隶属度与聚类中心,进而实现区间数聚类。

    算法的距离求取方法为:将两区间数ˉxk=[xk,x+k]ˉxj=[xj,x+j]分别划分为l份,每1份标记为[Ah1,Ah][Bh1,Bh],h=1,2,···,l,这里Ah1=xk+(h1)(x+kxk)/l,Ah=xk+h(x+kxk)/l, Bh1=xj+(h1)(x+jxj)/l,Bh=xj+h(x+jxj)/l,参照文献[18]中区间数距离定义方法,两区间数ˉxkˉxj的距离定义为

    DI(ˉxk,ˉxj)=1llh=1D{[(Ah1+Ah)/2+(AhAh1)x][(Bh1+Bh)/2+(BhBh1)y]}2dxdy=1llh=1{[(xkxj)+(2h1)((x+kxk)(x+jxj))/(2l)]2+112l[(x+kxk)2+(x+jxj)2]} (7)

    从式(7)可以看出,两区间数之间的距离只与区间端点值与区间划分份数l有关,而且当l时,其距离最小,因此,两区间数的最小距离为

    minD(ˉxk,ˉxj)=limlDI(ˉxk,ˉxj)=(xkxj)(x+kx+j)+[(x+kxk)(x+jxj)]2/3 (8)

    有了距离的定义,就可以参照2.1节中的算法1进行迭代求出隶属度,然后再分别计算出聚类中心的左右区间端点,如式(9)、式(10)所示。

    v(b+1)ij=32nk=1(uik)m(23xkj+13x+kj13v+(b)ij)/nk=1(uik)m (9)
    v+(b+1)ij=32nk=1(uik)m(13xkj+23x+kj13v(b)ij)/nk=1(uik)m (10)

    从上面可以看出,本算法在计算样本与聚类中心的距离时,不但考虑了区间数的左右端点,而且通过区间划分兼顾了区间大小,因此该算法得到的聚类结果更精准与客观,然而,由于距离计算与划分份数有关,且在每一次聚类中心左右端点值计算过程中都要用到上一次的聚类中心区间左右端点值,因此迭代次数增加,其收敛性也难以证明。

    上一节阐述了基于区间数的3种聚类算法,这些算法都存在不足,其中算法1对区间数左右端点直接聚类,它分裂了区间左右端点间的联系,算法2只考虑区间中值而未兼顾区间大小对聚类的影响,算法3虽然考虑了区间端点与大小对聚类的影响,但其聚类中心的迭代计算不但与隶属度有关,而且与上一次的计算结果有关,这样反复迭代有可能陷入死循环,其收敛性难以证明。基于此,本文兼顾区间大小与区间中值,设计一种改进的区间数FCM聚类算法来克服上述不足,具体如下。

    观测样本集ˉX如上节所述,其中每个样本ˉxkp维特征组成,每个特征是一个区间数,考虑区间中值与区间大小的关系,将区间数ˉxk映射到由区间中值.xk与区间大小xk所张成的特征空间S(.xk,xk)中,形成特征空间中的一个实值点xk,即

    M:ˉxkIp(R+)xkR2p (11)

    其中ˉxk=(ˉxk1,ˉxk2,···ˉxkp)Ip(R+)p维区间型特征数据,ˉxkj=[xkj,x+kj]I(R+)为样本的第j维特征,变换后的样本xk=(.xk,λxk)=(.xk1,···,.xkp,λxk1,···,λxkp)就成为了普通数据,即2p维空间的一个点,其中.xk=(xk+x+k)/2,xk=(x+kxk), λ为加权因子,这是一个非常重要的参数,用来控制区间大小对聚类的影响,λ的定义:分析区间数可知,在区间中值已确定的情况下,区间越大,即中值离左右区间端点距离越大,则区间大小对该区间数聚类的影响越大,例如,今天的气温在25°左右,则25°是区间中值,其变化范围可以是区间数[24, 26],也可以是[23, 27],显然变化范围越大,其对区间数的影响也越大,因此,λ的定义为

    λ=(.xx)/.x=(x+.x)/.x (12)

    将中值.x=(x+x+)/2代入式(12),可得λ=(x+x)/(x++x)

    由式(12)可以看出,λ[0,1],且区间越大(区间越宽),则λ值越大,即区间宽度对该区间数的影响越大,当λ=1,此时区间大小与区间中值同等重要,当区间变窄直至趋于0,即x=x+时,λ=0,这时区间数变成普通的精确数,区间大小对聚类无影响,因此λ可看着是区间大小对区间数聚类影响的度量。

    有了区间大小影响因子,改进的FCM算法进行聚类过程如下:

    步骤 1 分析待聚类的样本集ˉX,按照式(11)将其变换成普通确定数的样本集X,并依据式(12),设定影响因子λ的合理取值;

    步骤 2 初始化,设置迭代停止阈值ε,初始化聚类中心模式V(0),设置迭代计数器b=0

    步骤 3 根据转换后的样本特征,按式(13)定义样本ˉxk与聚类中心ˉvi间的距离

    d2(ˉxk,ˉvi)=pl=1[(.xkl.vil)2+λ2(xklvil)2] (13)

    其中.xkl为样本ˉxk的第l维特征区间中值,xkl为其第l维特征的区间值大小,.vil为聚类中心ˉvi的第l维特征区间中值,vil为其第l维区间值大小,重新定义的距离既考虑样本区间中值,又兼顾了区间大小,因而在聚类时能客观表达样本信息。

    步骤 4 基于式(13)定义的距离,调用2.1节的FCM算法进行迭代计算,满足终止条件后,获得样本集的最佳划分隶属度uik和聚类中心vi,其中vi=(.vi1,.vi2,···,.vip,λvi1,λvi2,···,λvip)

    步骤 5 反变换,将步骤4中获得的聚类中心复原,从而获得聚类中心ˉvi的区间端点值,即:vil=.vilvil/2,v+il=.vil+vil/2, l=1,2,···,p

    本算法通过空间映射变换将区间型样本值变换成由区间中值和区间大小组成的特征实向量,设计一影响因子来兼顾区间中值与区间大小对聚类的共同作用,然后调用FCM算法进行聚类,算法终止后通过反变换恢复聚类中心的区间数形式。因此,本算法克服了第2节中所提出的算法弱点,而且设计简单,理论依据充分,具有一定的优越性。

    为了验证本文所提出的改进区间型不确定数据FCM聚类的有效性,用文献[10]中给出的Fat-Oil、文献[9]给出的Fish以及文献[11]所述人工合成的数据集进行实验,这3个数据集各有特征,其中Fat-Oil没有给出先验的数据类属关系,Fish数据集虽然有先验的数据类属关系,但数据类之间的差别小,可分性差,而人工合成数据集中各类之间的分离性较好,因此通过这3个数据集可以全面检验算法的实际效果。实验环境采用Matlab2014a软件编程,实验评价指标:一个是划分系数(Partition Coefficient, PC),其定义为

    PC=1nci=1nk=1u2ik (14)

    其中n为待分类的样本个数,c为聚类数,uik[0,1]为样本ˉxk与划分类i的隶属度,PC值在[1/c,1]之间,且uik越大,划分系数PC就越大,聚类效果越好,因此PC可以作为评价聚类效果的指标;另一个是正确等级(Correct Rank, CR)指标[5],其定义为:设U={u1,u2,···,ur}V={v1,v2,···,vc}分别表示已给出的先验类和通过算法得到的实际类,则

    CR=ri=1cj=1C2nij(C2n)1ri=1C2nicj=1C2nj)12(ri=1C2ni+cj=1C2nj)(C2n)1ri=1C2nicj=1C2nj (15)

    其中组合C2nij=nij(nij1)/2, nij为既属于类ui又属于类vj中的样本个数,ni,nj分别为类ui与类vj中样本个数,n为样本总数,很显然,CR值在[–1, 1]范围内,其值越接近1说明算法的划分性能越好,当其值接近于0或为负数时,算法性能很差,因此可以通过CR指标值来检验算法在聚类划分时性能的好坏。

    另外将本文所提出的区间型不确定数据改进的模糊C均值算法(IU-IFCM)与第2节所阐述的区间值端点直接聚类算法1(E_FCM)、基于区间中值直接聚类算法2(M_FCM)以及基于区间型数据划分的聚类算法3(D_FCM)进行对比实验,以便更清晰的验证聚类结果。

    实验1 Fat-Oil数据集

    该数据集组成如表1所示,为一组实际数据,包含8个4维特征矢量,各维特征值均为区间数,分别采用前面所述的E_FCM, M_FCM, D_FCM及本文所提出的区间型不确定数据的改进算法IU_IFCM进行聚类实验,按式(14)计算划分系数,需要说明的是算法1在聚类分析时,因其对区间左右端点分别聚类得到了2个不同的隶属度uik, u+ik,因此最后的划分系数PC取左右端点聚类后的平均值,另外由于Fat-Oil数据集没有给出先验类别划分,因此指标CR值不能在实验中给出。实验中,聚类数设置为c=3、模糊加权指数m=2,迭代终止阈值(相邻两次迭代的聚类中心之差)ε=0.05,本文IU_IFCM算法中提出的区间大小影响因子λ是本算法区别于其它3种算法的主要特征,其取值大小直接影响聚类结果的质量,是实验中要分析的主要参数,依据式(12),分别计算表1中样本各维特征值的区间大小影响因子,得到该数据集区间值大小影响因子平均值λ=0.2(因各特征的区间大小影响因子基本相同,均为0.2),每种算法分别进行10次实验后取平均值,其划分系数对比如图1所示。

    表 1  Fat_Oil数据集
    样本比重(g/cm3)冰点(°C)io值sa值
    亚麻油[0.930 0.935][–27 –8][170 204][118 196]
    紫苏油[0.930 0.937][–5 –4][192 208][188 197]
    棉籽油[0.916 0.918][–6 –1][99 113][189 198]
    芝麻油[0.920 0.926][–6 –4][104 116][187 193]
    山茶油[0.916 0.917][–21 –15][80 82][189 193]
    橄榄油[0.914 0.919][0 6][79 90][187 196]
    牛油[0.860 0.870][30 38][40 48][190 199]
    猪油[0.858 0.864][22 32][53 77][190 202]
    下载: 导出CSV 
    | 显示表格
    图 1  4种算法的划分系数比较

    可以看出,4种算法中,IU_IFCM的PC值最大,表明该算法的聚类效果最好;D_FCM算法次之,主要是该算法聚类时,由于Fat-Oil数据集没有类别划分先验知识,虽然样本的划分与距离表达完备,但聚类中心区间2端点值本身在迭代计算时要相互引用,左区间端点要引用右区间端点,见式(9)与式(10),即在聚类过程中即使没有收敛,但满足了终止条件算法就终止;E_FCM算法最差,这是因为E_FCM聚类时,2个区间端点分别独立完成,它们之间没有联系,进而在聚类过程中可能出现2区间端点完全不一致的隶属度;而M_FCM算法比E_FCM虽然有所改进,但在聚类计算过程中忽略了区间大小产生的影响,因而结果也不够理想。

    实验2 Fish数据集

    该数据集包括12个鱼种样本,每个样本由13个区间特征值与1个先验分类值描述,详见文献[9],区间值特征用于聚类分析,先验分类值表明该种鱼的事先分类情况,包括肉食性鱼类、草食性鱼类、腐屑食性鱼类和杂食性鱼类4种类别,采用上述4种方法进行实验,实验主要参数设置:聚类数c=4,模糊加权指数m=2,迭代终止阈值ε=0.01。本文提出的IU_IFCM算法中区间大小影响因子根据式(12)提出的λ因子的计算方法,分别对13个特征的区间值进行计算,得到13个区间大小影响因子λi(i=1,2,···,13),由于在同一数据集中各λi相差不大,故最后取其平均值即λ=0.48为该数据集区间大小影响因子,且从这里可以看出,区间大小影响因子的值较大。由于该数据集已有鱼种分类先验知识,因此采用4种算法进行实验时,既可计算划分系数PC,也可计算CR指标值,每种算法各进行10次重复实验取实验结果平均值,4种算法进行聚类后的最后分类结情以及PC, CR值分别见表2图2表2中的数字代表鱼种类别。

    表 2  4种算法对Fish数据集的分类结果
    腐屑性肉食性杂食性草食性
    先验分类1 2 3 45 6 7 89 1011 12
    E_FCM1 2 54 6 37 108 9 11 12
    M_FCM1 3 46 10 112 85 7 9 12
    D_FCM1 2 45 6 8 93 10 117 12
    IU_IFCM1 2 3 46 7 85 9 1011 12
    下载: 导出CSV 
    | 显示表格
    图 2  Fish数据集4种算法的PC, CR比较

    表2可以直观看出,本文所提出的IU_IFCM算法的聚类结果与先验分类最接近,其它3种算法聚类结果难以直观分辨,可借助于图2中的实验结果对比分析,可以看出,无论是PC值还是CR值,4种算法中IU_IFCM算法的聚类效果最好,D_FCM次之,E_FCM最差,原因是Fish数据集中区间大小影响很大(λ=0.48),而本文提出的IU_IFCM算法兼顾了区间大小影响,故聚类效果好,D_FCM算法虽然考虑了区间大小的影响,但其距离计算过程中区间划分份数l才有最佳效果与收敛性,而实际上l是不可能的,故其结果次之,其它2种算法M_FCM、E_FCM都没有考虑区间大小,因而在这样一个区间大小影响大的数据集中聚类效果较差。该实验也验证了本文所提出改进区间型不确定数据聚类算法的有效性。

    实验3 人工合成数据集

    该数据集是一个人工合成的2维空间数据集,详见文献[11],共包含3类350个样本点数据,每一个样本x=(x1,x2)服从独立的2维正态分布,其主要参数见表3,其中m1,m2分别表示样本第1维、第2维均值,σ21,σ22分别表示第1,2维协方差,该样本集有较好的分离性,其中一类包含50个圆形分布样本点,另2类各包含150个椭圆形分布的样本点,将该数据集的每个样本点作为“种子”,按照x=([x1γ1/2,x1+γ1/2],[x2γ2/2,x2+γ2/2])的方法生成区间型数据,其中γ1,γ2分别表示样本点第1, 2维宽度,其值在区间[1, 8]范围内随机产生,从而得到该样本集的区间型数据集,如图3所示。

    表 3  人工数据集
    参数类1类2类3
    m1286045
    m2223038
    σ2110099
    σ2291449
    下载: 导出CSV 
    | 显示表格
    图 3  人工合成区间数据集

    采用实验1,2中所述的4种方法分别对该数据集进行实验,实验环境与条件同前面,其中聚类数c=3,通过计算可得IU_IFCM算法中区间大小影响因子λ=0.1,终止阈值ε=0.01,共进行10次重复实验取平均值,实验结果如图4所示。

    图 4  人工合成数据集4种算法的PC、CR比较

    图4可以看出,本文所提出的IU_IFCM算法的PC, CR指标值虽然大于其它3种算法,但都相差不大,原因是本数据集中,区间大小影响因子λ值不大,即本数据集中区间大小对聚类的影响不明显,因而4种算法聚类结果相差不大。另外对比实验2还可以看出,针对不同结构的数据集,算法得到的聚类结果也不同,本实验的人工合成数据集因有较好的类属分离性,故PC, CR值大,而实验2中的Fish鱼种分类,因某些鱼种(如腐屑性类、肉食性类)分类不明显,有一定的重叠数据,故其值较小。

    区间型不确定数据是目前大数据环境中重要组成部分,本文通过分析比较目前已有的基于区间型数据聚类FCM算法的不足,给出了一种改进的区间型不确定数据集FCM聚类算法,并通过理论分析与实验对比验证其有效性。本文的主要创新点有2个,一是将p维区间值数据变换为2p维实数据的过程中兼顾了区间中值与区间大小的关系,使得数据聚类更为客观;二是在聚类计算时,引入区间大小影响因子λ,阐述了其取值的理论依据与推导方法,且在实验中给出了它对实验结果影响的具体分析。因而本文提出的方法在在大数据环境下对区间型数据的分类与描述有一定的应用价值。需要说明的是,在区间数变换以及区间数距离的计算过程中本文提出的算法没有考虑不同特征对聚类结果的影响不同这一情况,即所有特征的影响因子λ取值相同,可能会导致某些区间数据集聚类结果不够准确,这一问题的解决将是下一步的研究目标。

  • 图  1  4种算法的划分系数比较

    图  2  Fish数据集4种算法的PC, CR比较

    图  3  人工合成区间数据集

    图  4  人工合成数据集4种算法的PC、CR比较

    表  1  Fat_Oil数据集

    样本比重(g/cm3)冰点(°C)io值sa值
    亚麻油[0.930 0.935][–27 –8][170 204][118 196]
    紫苏油[0.930 0.937][–5 –4][192 208][188 197]
    棉籽油[0.916 0.918][–6 –1][99 113][189 198]
    芝麻油[0.920 0.926][–6 –4][104 116][187 193]
    山茶油[0.916 0.917][–21 –15][80 82][189 193]
    橄榄油[0.914 0.919][0 6][79 90][187 196]
    牛油[0.860 0.870][30 38][40 48][190 199]
    猪油[0.858 0.864][22 32][53 77][190 202]
    下载: 导出CSV

    表  2  4种算法对Fish数据集的分类结果

    腐屑性肉食性杂食性草食性
    先验分类1 2 3 45 6 7 89 1011 12
    E_FCM1 2 54 6 37 108 9 11 12
    M_FCM1 3 46 10 112 85 7 9 12
    D_FCM1 2 45 6 8 93 10 117 12
    IU_IFCM1 2 3 46 7 85 9 1011 12
    下载: 导出CSV

    表  3  人工数据集

    参数类1类2类3
    m1286045
    m2223038
    σ2110099
    σ2291449
    下载: 导出CSV
  • JIANG Bin, PEI Jian, TAO Yufei, et al. Clustering uncertain data based on probability distribution similarity[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(4): 751–763. doi: 10.1109/TKDE.2011.221
    GULLO F and TAGARELLI A. Uncertain centroid based partitional clustering of uncertain data[J]. Proceedings of the VLDB Endowment, 2012, 5(7): 610–621. doi: 10.14778/2180912.2180914
    DALLACHIESA M, JACQUES-SILVA G, GEDIK B, et al. Sliding windows over uncertain data streams[J]. Knowledge and Information Systems, 2015, 45(1): 159–190. doi: 10.1007/s10115-014-0804-5
    彭宇, 罗清华, 彭喜元. UIDK-means: 多维不确定性测量数据聚类算法[J]. 仪器仪表学报, 2011, 32(6): 1201–1207. doi: 10.19650/j.cnki.cjsi.2011.06.001

    PENG Yu, LUO Qinghua, and PENG Xiyuan. UIDK-means: A Multi-dimensional uncertain measurement data clustering algorithm[J]. Chinese Journal of Scientific Instrument, 2011, 32(6): 1201–1207. doi: 10.19650/j.cnki.cjsi.2011.06.001
    BAO Chaozheng, PENG Hongming, HE Di, et al. Adaptive fuzzy c-means clustering algorithm for interval data type based on interval-dividing technique[J]. Pattern Analysis and Applications, 2018, 21(3): 803–812. doi: 10.1007/s10044-017-0663-2
    D’URSO P, MASSARI R, DE GIOVANNI L, et al. Exponential distance-based fuzzy clustering for interval-valued data[J]. Fuzzy Optimization and Decision Making, 2017, 16(1): 51–70. doi: 10.1007/s10700-016-9238-8
    BRITO P, SILVA A P D, and DIAS J G. Probabilistic clustering of interval data[J]. Intelligent Data Analysis, 2015, 19(2): 293–313. doi: 10.3233/IDA-150718
    HAMDAN H. Maximum likelihood estimation from interval-valued data. Application to fuzzy clustering[C]. The 13th International Conference on Theory and Application of Fuzzy Systems and Soft Computing -ICAFS-2018. Istanbul, Turkey, 2019: 3–10. doi: 10.1007/978-3-030-04164-9_3.
    谢志伟, 王志明. 一种区间型数据的自适应模糊C均值聚类算法[J]. 计算机工程与应用, 2012, 48(17): 193–198, 237. doi: 10.3778/j.issn.1002-8331.2012.17.038

    XIE Zhiwei and WANG Zhiming. Self-adapting fuzzy c means clustering algorithm for interval data[J]. Computer Engineering and Applications, 2012, 48(17): 193–198, 237. doi: 10.3778/j.issn.1002-8331.2012.17.038
    GAO Xinbo, JI Hongbing, and XIE Weixin. A novel FCM clustering algorithm for interval-valued data and fuzzy-valued data[C]. The 5th International Conference on Signal Processing Proceedings. The 16th World Computer Congress 2000, Beijing, China, 2000: 1551–1555. doi: 10.1109/ICOSP.2000.893395.
    MACIEL L, BALLINI R, GOMIDE F, et al. Participatory learning fuzzy clustering for interval-valued data[C]. The 16th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, Eindhoven, The Netherlands, 2016: 687–698. doi: 10.1007/978-3-319-40596-4_57.
    兰蓉. 模糊信息距离及其若干应用[D]. [博士论文], 西安电子科技大学, 2013: 61–73.

    LAN Rong. Fuzzy information distances and their some applications[D]. [Ph.D. dissertation], Xidian University, 2013: 61–73.
    金萍, 宗瑜, 屈世超, 等. 面向不确定数据的近似骨架启发式聚类算法[J]. 南京大学学报: 自然科学, 2015, 51(1): 197–205. doi: 10.13232/j.cnki.jnju.2015.01.027

    JIN Ping, ZONG Yu, QU Shichao, et al. Approximate backbone guided heuristic clustering algorithm for uncertain data[J]. Journal of Nanjing University:Natural Sciences, 2015, 51(1): 197–205. doi: 10.13232/j.cnki.jnju.2015.01.027
    魏方圆, 黄德才. 基于区间数的多维不确定性数据UID-DBSCAN聚类算法[J]. 计算机科学, 2017, 44(11A): 442–447. doi: 10.11896/j.issn.1002-137X.2017.11A.094

    WEI Fangyuan and HUANG Decai. UID-DBSCAN clustering algorithm of multi-dimensional uncertain data based on interval number[J]. Computer Science, 2017, 44(11A): 442–447. doi: 10.11896/j.issn.1002-137X.2017.11A.094
    ZHANG Qin, FANG Zhigeng, LIU Sifeng, et al. On variable weight clustering model of generalized interval grey numbers for multiple uncertain data[J]. Journal of Grey System, 2019, 31(1): 84–99.
    陆亿红, 任胜亮. 基于区间数的不确定数据流2κ近邻聚类算法[J]. 浙江工业大学学报, 2018, 46(3): 321–326. doi: 10.3969/j.issn.1006-4303.2018.03.015

    LU Yihong and REN Shengliang. The clustering algorithm of uncertain data stream 2κ-near neighbors based on interval number[J]. Journal of Zhejiang University of Technology, 2018, 46(3): 321–326. doi: 10.3969/j.issn.1006-4303.2018.03.015
    张新猛, 蒋盛益. 一种基于相似度概率的不确定分类数据聚类算法[J]. 山东大学学报: 工学版, 2011, 41(3): 12–16.

    ZHANG Xinmeng and JIANG Shengyi. An algorithm for clustering uncertain categorical data based on similarity probability[J]. Journal of Shandong University:Engineering Science, 2011, 41(3): 12–16.
    TRAN L and DUCKSTEIN L. Comparison of fuzzy numbers using a fuzzy distance measure[J]. Fuzzy Sets and Systems, 2002, 130(3): 331–341. doi: 10.1016/s0165-0114(01)00195-6
  • 期刊类型引用(7)

    1. 戴美玲. 基于改进模糊聚类的网络敏感数据流动态挖掘研究. 保山学院学报. 2023(02): 44-51 . 百度学术
    2. 张璐,雷雨,冯锦通. 基于大数据的众创空间运营效率评价系统设计. 信息技术. 2023(04): 46-50 . 百度学术
    3. 王进花,王跃龙,黄涛,曹洁. 基于AE-IFCM的轴承故障诊断方法. 太阳能学报. 2022(07): 310-315 . 百度学术
    4. 薛海,胡李军,李强. 基于模糊聚类的高表征度地铁构架应力谱编制方法. 中国铁道科学. 2022(05): 102-110 . 百度学术
    5. 高妍妍,缪祥华. 基于自适应布谷鸟搜索的模糊聚类算法. 化工自动化及仪表. 2022(06): 725-731 . 百度学术
    6. 杨岚. 融媒体资源搜索的UI界面多维可视化系统设计. 现代电子技术. 2021(19): 119-123 . 百度学术
    7. 黄悦,幸福堂,石癸鑫,吴孟龙. 矿业安全生产事故时间序列的模糊区间预测. 矿业安全与环保. 2021(05): 96-102+107 . 百度学术

    其他类型引用(11)

  • 加载中
图(4) / 表(3)
计量
  • 文章访问数:  2380
  • HTML全文浏览量:  1202
  • PDF下载量:  110
  • 被引次数: 18
出版历程
  • 收稿日期:  2019-08-06
  • 修回日期:  2020-02-19
  • 网络出版日期:  2020-03-14
  • 刊出日期:  2020-08-18

目录

/

返回文章
返回