Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合多权重因素的低秩概率矩阵分解推荐模型

王丹 田广强 王福忠

王丹, 田广强, 王福忠. 融合多权重因素的低秩概率矩阵分解推荐模型[J]. 电子与信息学报, 2022, 44(2): 552-565. doi: 10.11999/JEIT210011
引用本文: 王丹, 田广强, 王福忠. 融合多权重因素的低秩概率矩阵分解推荐模型[J]. 电子与信息学报, 2022, 44(2): 552-565. doi: 10.11999/JEIT210011
WANG Dan, TIAN Guangqiang, WANG Fuzhong. Probabilistic Matrix Factorization Recommendation Model Incorporating Multiple Weighting Factors[J]. Journal of Electronics & Information Technology, 2022, 44(2): 552-565. doi: 10.11999/JEIT210011
Citation: WANG Dan, TIAN Guangqiang, WANG Fuzhong. Probabilistic Matrix Factorization Recommendation Model Incorporating Multiple Weighting Factors[J]. Journal of Electronics & Information Technology, 2022, 44(2): 552-565. doi: 10.11999/JEIT210011

融合多权重因素的低秩概率矩阵分解推荐模型

doi: 10.11999/JEIT210011
基金项目: 国家重大专项子课题(22016YFC0600906);2019年度河南省高等学校青年骨干教师培养计划(2019286);河南省教育科学“十三五”规划(2020YB0404);焦作市工程技术中心科研项目(201834);黄河交通学院计算机科学与技术重点学科项目(201902)
详细信息
    作者简介:

    王丹:女,1985年生,硕士,副教授,研究方向为大数据与社交网络数据挖掘等

    田广强:男,1975年生,硕士,副教授,研究方向为数据挖掘、人工智能等

    王福忠:男,1961年生,博士,教授,研究方向为人工智能控制、智能信息处理与故障诊断等

    通讯作者:

    王丹 wangdliang80@sina.com

  • 中图分类号: TN911.7; TP391

Probabilistic Matrix Factorization Recommendation Model Incorporating Multiple Weighting Factors

Funds: Sub-projects of National Major Special Projects(22016YFC0600906), Training plan of young backbone teachers in Colleges and universities of Henan Province in 2019(2019286), The 13th five year plan of Educational Science in Henan Province(2020YB0404), Scientific research project of Jiaozuo Engineering Technology Center(201834), Key Subject Project of Computer Science and Technology in Huanghe Jiaotong University(201902)
  • 摘要: 针对个性化推荐精度较低、对冷启动敏感等问题,该文提出一种融合多权重因素的低秩概率矩阵分解推荐模型MWFPMF。模型利用给定的社交网络构建信任网络,借助Page rank算法和信任传递机制求取用户间信任度;基于Page rank计算用户社会地位,利用活动评分和评分时间修正用户间关系权重;引入词频-逆文本频率技术(TF-IDF)求取用户标签,通过标签相似性表征用户间同质性;将用户间信任度、用户社会地位影响力和用户同质性3因素融入低秩概率矩阵分解中,从而使用户偏好和活动特征映射到同一低秩空间,实现用户-活动评分矩阵的分解,在正则化约束下,最终完成低秩特征矩阵对用户评分缺失的有效预测。利用豆瓣同城北京和Ciao数据集确定各模块的参数设置值。通过仿真对比实验可知,本推荐模型获得了较高的推荐精度,与其他5种传统推荐算法相比,平均绝对误差至少降低了6.58%,均方差误差至少降低了6.27%,与深度学习推进算法相比,推荐精度基本接近;在冷启动用户推荐上优势明显,与其他推荐算法相比,平均绝对误差至少降低了0.89%,均方差误差至少降低了3.01%。
  • 随着信息技术的迅猛发展,人们的社交活动趋向于网络化。面对庞大的社交信息,如何从中筛选用户感兴趣的信息已成为广大学者研究的重点。社交数据的稀疏性和冷启动是推荐算法无法规避的问题。近年来,国内外学者提出了各种各样的解决方法,其中在深入挖掘用户的社交关系来缓解用户-活动评分矩阵的稀疏性等方面,取得了较好的结果[1-3]。Guo等人[4]将评级和信任等显式数据和用户对社交活动的隐式数据引入推荐模型中降低了数据稀疏和冷启动对推荐性能的影响;Wang等人[5]利用社交用户隐性和显性信任的互补性,将两种信任关系整合到三方图上,提出了一种基于扩散的三方信任推荐模型;Papneja等人[6]深入研究了用户兴趣随时间的变化趋势,提出了一种基于本体扩展激活的新型上下文感知个性化推荐算法;Chen等人[7]将信任关系引入到原始CosRA方法中,提出了一种基于信任的推荐方法,利用可调参数对信任的传递进行重新调整;Guan等人[8]将用户的社会关系进行建模,添加附加层整合用户的上下文信息,并将其嵌入神经网络社会推荐中,取得了较好的结果;Aghdam[9]提出了一种新颖的分层隐马尔可夫模型,以识别随时间变化的用户偏好,利用变化偏好训练推荐模型,获取形似用户的偏好趋向,以完成最终的推荐;Yao等人[10]将信任网络的本地链接结构用作两个正则化项来捕获隐式用户相关性,但此种方法以社交网络中链入和链出的用户数来确定用户的权威,并没有考虑链接点的社会地位,推荐精度虽有提高但有瓶颈;Wang等人[11]根据用户的地位和情绪倾向量化用户间的同质性,以此构建同质数据的模型作为多级神经网络的输入,通过不断地神经网络学习预测目标用户的活动趋向,推荐精度有一定的提升,但未考虑用户间的同质性对项目评分的影响;余永红等人[12]利用Pagerank算法计算用户的社会地位,并将其引入矩阵分解中,提出了融合用户社会地位的矩阵分解推荐算法。这些最新研究大部分仅考虑了用户的信任关系或部分用户的同质性,并没有深入的研究用户信任的多级传递、用户的社会地位和用户的同质性对推荐结果的影响。基于此,本文将用户间信任度、用户社会地位影响力和用户同质性3因素融入低秩概率矩阵分解中提出了一种融合多权重因素的低秩概率矩阵分解推荐模型(Probabilistic Matrix Factorization recommendation model incorporating Multiple Weighting Factors, MWFPMF)。

    给定用户uU,活动sS,用户间的信任分为直接信任和间接信任。所谓直接信任只涉及用户两者,而间接信任会牵扯第三者。用户间的信任度越接近1,表明两者之间越信任,反之亦然。在社交网络中,用户被信任的人数越多表明用户的可信度越高。本文借助Page rank算法构建用户直接信任度

    Trui,uj=NujurTuiNur|Tui| (1)

    其中,Tui表示用户ui信任集合,|Tui|表示用户ui信任数量,Nuj,Nur分别表示用户uj,ur被信任的用户数量。在实际社交网络中,群组内用户间不可能都产生直接信任,我们将用户间的社交网络看作信任网络Q=(U,E,TR), E表示有向边集合,边e(ui,uj)E为用户ui对用户uj的信任关系,TR为信任度集合,Trui,ujTR为用户ui对用户uj的直接信任度值。节点间的信任网络如图1所示。

    图 1  信任网络

    在给定的信任网络Q=(U,E,TR)中,若用户ui与非直接信任用户ux间存在一条路径p=(ui,,uy,uz,,ux),在该路径p上任意边e(uy,uz)的信任度都大于信任阈值wθ,那么用户ui与非直接用户ux间存在间接信任。虽然用户间存在间接信任,但间接信任值并不一定被采用,这是由于信任在传递过程中随着跳数的增加而衰减,因此在求取间接信任前,需要设置两个阈值:信任阈值Trθ和跳数阈值hθ。本文设信任阈值Trθ=0.5和跳数阈值hθ=3,间接信任度计算为

    Tdui,uj=nκ=1(W(κ)×Wκdirect)nκ=1W(κ) (2)

    其中,Tdui,uj表示用户ui对用户uj的间接信任,Wκdirect表示第κ条信任路径中用户ui到用户uj之前的信任度值,W(κ)表示第κ条信任路径权重,其计算公式为

    W(κ)=κi=0Widirect (3)
    Str(ui,uj)={Tdui,uj,  ui,uj直接信任Tdui,uj,  ui,uj间接信任 (4)

    图1中,设信任阈值Trθ=0.5,hθ=3,那么若计算用户u3对用户u6的间接信任,则存在4条路径:u3u4u2u6, u3u7u5u6, u3u7u2u6u3u4u2u1u6,根据信任阈值,最终剩余u3u4u2u6, u3u7u5u6u3u7u2u6 3条信任路径。据式(3)得:W(1)=0.747×0.768=0.5737, W(2)=0.637×0.607=0.3867, W(3)=0.637×0.772=0.4918。根据式(2),用户u3对用户 u6的间接信任 Tdu3,u6

    Tdu3,u6=0.794×W(1)+0.809×W(2)+0.794×W(3)W(1)+W(2)+W(3)=0.798

    用户的社会地位影响力反映了其在社交网络中所处位置,是声望、学识、经济等因素的集中体现。通常认为,具有较高社会地位影响力的用户更容易被其他用户信任,而具有较低社会地位影响力的用户更容易不被信任,图2是具有社会地位影响力的信任网络。

    图 2  具有社会地位影响力的信任网络

    图2中用户u5的社会地位影响力为0.61,用户u2的社会地位影响力为0.98。由于用户u2的社会影响力高于用户u5,用户u7更倾向于通过信任用户u2继而间接信任u6

    一般认为在社交网络中,被其他用户信任的越多说明其具有较高的社会影响力,此类用户在信任网络中拥有较多的入度,相应地,具有较低社会影响力的用户通常会优先信任社会地位影响力高的用户,其具有较多的出度。我们将用户-活动对<U,S>表示成二部图G<V,E>,其中V表示顶点,包含用户和活动两类;E表示边,为用户与社交活动的交互关系,记录了用户ui是否评价过社交活动sk,若评价过则记录评价时间timuik。因为每个顶点初始访问概率相同,这里还是使用Page rank算法来计算用户的社会地位

    Spui=ρujTuiSpuj|Tui|+1ρNum (5)

    其中,Spui表示用户ui在每个聚类中的Pagerank值, Num表示用户数,ρ为用户ui跳出当前信任网络的概率值。

    一般认为社会地位高的用户,其社会影响力就大,其推荐的内容往往更容易被采纳,用户uiuj关系权重为

    Wij={Spuj×Str(ui,uj),Spuj>SpuiSpui×Str(ui,uj),其他 (6)

    用户uiuj信任不仅受其社会地位的影响还与他们对活动的评分及评分时间有关,因为对同一活动的评价时间相差越久,兴趣度就越低。对于此,权重Wij修正为

    Wij={|Iuiuj||Iui|+|Iuj|×kIuiuj1/(1+exp(δ|timuiktimujk|)Card(Iuiuj)+1×simuiuj×Spuj×Str(ui,uj),Spuj>Spui|Iuiuj||Iui|+|Iuj|×kIuiuj1/(1+exp(δ|timuiktimujk|)Card(Iuiuj)+1×simuiuj×Spui×Str(ui,uj),其他 (7)

    其中,δ[0,1]为时间衰减参数,timuiktimujk为用户uiuj对活动sk的评价时间,集合Iui为用户ui已评价的活动集合,Iuiuj为用户uiuj共同评价的活动集合,||表示求取集合元素个数,sim(i,j)表示用户uiuj的兴趣偏好的相似度

    sim(i,j)=kIuiuj(rikˉri)(rjkˉrj)kIuiuj(rikˉri)2kIuiuj(rjkˉrj)2 (8)

    其中,rikrjk分别表示用户uiuj对活动sk的评分,ˉriˉrj分别表示用户uiuj对活动sk的平均评分。

    一般认为“物以类聚人以群分”,在社交网络中,两个相似的用户往往更容易被彼此接受,继而推荐给彼此的活动也更容易感兴趣。用户之间的同质性可通过构建标签相似和个体特征相似来获取,借鉴TF-IDF算法的思想,用户ui对标签lζ的权重计算为

    hoiζ=NHiζlζLNHiζ×log2NHlNHζ+1 (9)

    其中,NHiζ表示用户ui使用标签集合L中标签lζ的次数,NHζ表示使用标签lζ的用户数,NHl表示标签总数。根据任意两个用户uiuj的权重,可得到这两个用户的相似性HOij

    HOij=nζ=1hoiζhojζnζ=1ho2iζnζ=1ho2jζ (10)

    定义用户的个体特征向量F=(f1,f2,,fn), fe11fe21是特征f1的两个值,对应平均偏好为rs1rt1。任意两个用户uiuj间的同质性可划分为3类:相同、相似和不相同

    Guiuj={(rs,rt)same,rs=rt(rs,rt)similar,|rsrt| uiUujU|rsuirsuj||rtuirtuj||U||U1|(rs,rt)disimilarelse (11)

    若任意两个用户的属性值相同,那么我们认为这两个用户的同质性一致。若任意两个用户的属性值在一个范围内,则认为这两个用户拥有相似的同质性,这里借鉴文献[12,13],任意用户间的同质性可表示为

    Huiuj=2(|sha|+α|shs|)hoij|sha|+α|shs|+|shd|/((|sha|+α|shs|)|sha|+α|shs|+|shd|+hoij) (12)

    其中,sha,shs,shd为用户特性的相同、相似和不相似集合,α为用户间同质相似性阈值,这是设α=0.8

    基于矩阵分解的协同过滤模型具有良好的可扩展性和推荐精度,得到了越来越多的关注和研究。这里采用低秩概率矩阵分解(Probabilistic Matrix Factorization, PMF)作为本文推荐的框架,利用该框架对用户-活动评分矩阵进行分解,将用户偏好和活动特征映射到同一潜在低秩空间中,然后利用低秩特征矩阵对用户评分缺失进行预测。

    设用户-活动评分矩阵R={rij}N个用户对M个活动的评分,列向量UtiStj分别为用户和活动的隐特征向量。假设用户-活动评分矩阵由高斯噪声线性概率模型构成,则R的条件分布为

    p(R|Ut,St,σ2)=Ni=1Mj=1[N(rij|g(UtTiStj),σ2)]I(x)Rij (13)

    其中,N(x|μ,σ2)表示x服从均值为μ、方差为σ2的高斯分布,I(x)Rij为指示函数,若返回1表明用户ui评价了活动sj,反之亦然。根据PMF模型,原始用户-活动评分矩阵R与近邻用户获得的隐特征向量的关系为

    RUtn×kStTm×k=ˆR (14)

    其中,Ut为用户的特征矩阵,St为活动的特征矩阵,k是矩阵Ut的维数,n表示用户数,m表示活动数。原始评分矩阵R是稀疏的,我们的目标是最小化矩阵RˆR间的偏差,通过训练已建立的推荐模型获取Utn×kStm×k的模型参数,目标函数为

    L=min|RˆR|=min(ni=1mj=1(rijUtiStTj)2+ξ(||Ut||2+||St||2)) (15)

    UtiStj分别为矩阵UtSt的低维矩阵,ξ(||Ut||2+||St||2)为正则项,以约束过度拟合。实际矩阵UtiStj可利用随机梯度下降法获得

    Ut(n+1)iUtniβLUti (16)
    St(n+1)jStnjβLStj  (17)

    其中,β表示学习速率,通过对(rmjˆrmj)2偏微分,可求取rmjˆrmj间差值的最小值

    (rmjˆrmj)2Utik=2Utmk(rmjKk=1UtmkStkj) (18)
    (rmjˆrmj)2Stkj=2Stkj(rkjKk=1UtmkStkj) (19)

    根据梯度下降获得递归公式

    Utik=Utik+β(StkjeijξUtik) (20)
    Stkj=Stkj+β(UtikeijξStkj) (21)

    这里设eij=rmjˆrmj,预测评分为

    ˆrij=Kk=1UtikStkj (22)

    综上分析了用户间的信任度、用户社会地位影响力以及用户的同质性,本文将这些权重因素融入矩阵分解中。图3为融合用户间信任关系的矩阵分解示意图。

    图 3  矩阵分解示意图

    图3所示,用户的信任网络由7个用户和15条关系组成,每个用户有自己的社会影响度和彼此间信任度,用户u7为冷启动用户,其对活动没有评价记录,仅利用评价信息无法为其推荐感兴趣的活动。由于用户-活动评价矩阵和用户间的信任关系都会预测到用户的兴趣所在。为了给用户u7推荐感兴趣的活动,这里利用矩阵分解技术将用户-活动评分矩阵分解为UtTSt,具体的根据评分矩阵和用户间信任矩阵将用户特征矩阵Ut映射到共享低秩空间,从而利用u7信任用户获取其隐特征Uti

    Uti=ujAuiStr(ui,uj)UtjujAuiStr(ui,uj) (23)

    其中,Uti为用户ui的特征矩阵,Aui为用户ui的信任用户集合,将用户ui与所有信任用户的信任关系归一化,即ujAuiStr(ui,uj)=1,可得

    Uti=ujAuiStr(ui,uj)Utj (24)

    根据文献[14],假设用户和活动的隐特征向量服从高斯先验分布

    p(Ut|σ2Ut)=Ni=1N(Utui|0,σ2Ut) (25)
    p(St|σ2St)=Mj=1N(Stuj|0,σ2St) (26)

    将用户间信任网络融入用户特征向量中,并根据目标用户的近邻用户特征向量获得其条件分布

    p(Ut|W,σ2W)=Ni=1N(Uti|ujAuiWijUtj,σ2W) (27)

    利用贝叶斯后验概率对隐特征进行推导可得

    p(Ut,St|R,W,σ2R,σ2W,σ2Ut,σ2St)p(R|Ut,St,σ2R)p(Ut|W,σ2Ut,σ2W)p(St|σ2St)=Ni=1Mj=1[N(rij|g(UtTiStj),σ2R)]I(x)Rij×Ni=1N(Uti|ujTuiWijUtj,σ2WI)×Ni=1N(Uti|0,σ2Ut)×Mj=1N(Stj|0,σ2StI) (28)

    其中,Id维单位对角矩阵,其中d为矩阵UtSt的维度, Aui为用户ui的相邻用户集合。

    将用户间同质性融入PMF中,可得用户特征条件分布

    p(Ut|H,σ2H)=Ni=1N(Utui|ujAuiHuiujUtuj,σ2H) (29)

    融入用户-活动评分矩阵、用户间信任矩阵以及用户间的同质性,可得矩阵UtSt的后验概率

    p(Ut,St|R,W,H,σ2R,σ2W,σ2Ut,σ2St,σ2H)p(R|Ut,St,σ2R)p(Ut|W,σ2Ut,σ2W)p(Ut|H,σ2Ut,σ2H)p(St|σ2St)=Ni=1Mj=1[N(rij|g(UtTiStj),σ2R)]I(x)Rij×Ni=1N(Uti|ujAuiWijUtj,σ2WI)×Ni=1N(Uti|ujAuiHuiujUtj,σ2HI)×Ni=1N(Uti|0,σ2Ut)×Mj=1N(Stj|0,σ2StI) (30)

    用户uiuj非常信任并不代表uiuj具有偏好相似,若用户ui与其所信任用户的偏好有较大的偏差,那么基于用户ui隐特征向量所得到的目标用户预测评分也有一定偏差。为降低偏差对预测精度的影响,引入正则项以约束用户与其近邻

    φ2Ni=1ukTuisim(i,k)||UtiUtk||2F (31)

    进一步考虑用户ui在选择活动时会对类似的活动感兴趣,可能接受相似活动作为推荐结果,为此以社交正则化约束活动特征St

    ϕ2Mj=1szTsjsim(j,z)||StjStz||2F (32)

    综上分析,将用户和活动的正则化约束项代入推荐模型中,并将原始问题转化成最小化目标函数

    L(R,Ut,St,W,H)=12Ni=1Mj=1I(x)Rij(rijg(UtTiStj))2+λUt2Ni=1UtTUt+λSt2Mj=1StTSt+λW2Ni=1[(UtiujAuiWijUtj)T(UtiujAuiWijUtj)]+λH2Ni=1[(UtiujAuiHuiujUtj)T(UtiujAuiHuiujUtj)]+φ2Ni=1ukTuisim(i,k)||UtiUtk||2F+ϕ2Mj=1szTsjsim(j,z)||StjStz||2F (33)

    其中,λUt=σ2Rσ2Ut, λSt=σ2Rσ2St, λW=σ2Rσ2W, λH=σ2Rσ2H,利用随机梯度下降优化式(33)可得UtiStj的梯度

    LUti=Mj=1I(x)RijStjg(UtTiStj)[g(UtTiStj)rij]+λUtUti+λW(UtiujAuiWijUtj)λWuiAujWij(UtjuxAujWjxUtx)+λH(UtiujAuiHuiujUtj)λHuiAujHuiuj(UtjuxAujHujuxUtx)+φukTuisim(i,k)(UtiUtk)+φuyT_uisim(i,y)(UtiUty) (34)
    LStj=Ni=1I(x)RijUtig(UtTiStj)[g(UtTiStj)rij]+λStSt+ϕszTsjsim(j,z)(StjStz) (35)

    式(34)中T_ui表示被用户ui信任的用户集合。用户和活动的隐特征向量UtiStj可通过式(16)和式(17)获得。

    结合前文所述,本文算法的伪代码如下:

    步骤1 输入用户集合U={u1,u2,,uN},活动集合S,用户-活动评分矩阵R,用户信任矩阵W,初始化Ut(0)i, St(0)j, ε,t=0,最大迭代次数MAX;

    步骤2 for(i=0,i||U||,i++)

    步骤3 for(j=0,j||S||,j++)

    步骤4 ifW利用式(7)计算Wij

    步骤5 endfor

    步骤6 endfor

    步骤7 for(i=0,i||U||,i++)

    步骤8 for(j=0,j||S||,j++)

    步骤9 ifH利用式(12)计算Huiuj

    步骤10 endfor

    步骤11 endfor

    步骤12 While(t<MAX)

    步骤13 利用式(34)和式(35)分别计算L(t)Uti, L(t)Stj

    步骤14 利用式(16)和式(17)分别计算Ut(t+1)i, St(t+1)j

    步骤15 if(L(t+1)L(t))<ε执行步骤13;

    步骤16  t++;

    步骤17 endwhile

    步骤18 输出Uti, Stj

    步骤19 根据式(22)预测评分

    本文将用户间的信任关系、用户的社会影响力和用户同质性融入矩阵分解中,算法的时间代价主要集中于计算目标函数L和梯度学习特征矩阵Ut,St上。其中计算目标函数的时间复杂度为O(γRd+γWd+γHd)γR,γW,γH分别为用户-活动评分矩阵R、用户信任矩阵W和用户同质性矩阵H中非零元素数,梯度学习特征向量的时间复杂度为O(γRdˉr+γWdˉw2+γHdˉh2)¯r,¯w,¯h分别表示用户的平均评分个数、平均信任个数以及平均近邻个数等。

    本文算法目的是为某个城市中的用户推荐感兴趣的活动或项目,为了验证本文算法的有效性和优越性,以豆瓣和Ciao为实验数据来源。在豆瓣上选择北京市2018年1月1日~2019年12月31日期间用户评价的活动或项目为实验数据,豆瓣用户可以对自己所感兴趣的书籍、电影、电视剧、音乐进行评价,其中在北京数据集上共有15384名用户,相互信任关系141556条,产生的有效评分70146条,评分信息的稀疏度为98.32%,用户社交关系的稀疏度为99.88%。

    Ciao是著名的欧洲消费点评网站,网站用户不仅可以浏览其他用户的评论还可以对其参与的商品进行评价。本文所采用的实验数据来自Tang等人[15]获取的1999年~2011年间的项目评分和社交数据。其中共有7357名用户,评分记录278483条,相互信任关系111781条,评分信息的稀疏度为99.96%,用户社交关系的稀疏度为99.59%。

    平均绝对误差(Mean Absolute Error, MAE)和均方差误差(Root Mean Squared Error, RMSE)是目前推荐领域最为常见评价方法

    MAE=(i,j)Rtest|rijˆrij||Rtest| (36)
    RMSE=(i,j)Rtest(rijˆrij)2|Rtest| (37)

    参考文献[16-20]对文中的参数设定如表1所示。

    表 1  参数设置
    参数参数
    用户特征正则化控制参数λUt0.1用户同质性调节参数λH0.5
    活动特征正则化控制参数λSt0.1用户信任网络跳出率ρ0.85
    用户社会影响力调节参数λW5隐特征矩阵维度d15
    梯度学习速率β0.01跳数阈值hθ3
    同质相似性阈值α0.8时间衰减参数δ0.5
    下载: 导出CSV 
    | 显示表格

    用户社会影响力和同质性是影响推荐的重要因素,参数λW, λH大小决定着用户行为和地位对信任用户的渗透力。这里在豆瓣北京和Ciao数据集上测试参数λW, λH与推荐评价指标MAE间的关系。当其他调节参数设置为0时,社会影响力调节参数λW与平均绝对误差MAE的关系如图4所示。

    图 4  不同数据集上参数λWMAE关系

    图4可知,在豆瓣北京和Ciao数据集上随着参数λW的增大,推荐评价指标MAE值先降后增。并且训练数据越多,得到的推荐精度就越高,预测误差就越小。在豆瓣北京数据集上λW=5MAE取得最小值,算法此时获得最好的预测结果;在Ciao数据集上λW=4MAE取得最小值,综上所述,本文将用户社会影响力调节参数λW设置为5。当其他调节参数设置为0时,同质性调节参数λH与平均绝对误差MAE的关系如下。

    图5可以看出,在豆瓣北京和Ciao数据集上参数λHMAE的变化趋势是一致的,即随着λH的不断增大,平均绝对误差MAE先下降后增大。并且随着训练数据的增多,平均绝对误差MAE越小,推荐预测精度越高。在豆瓣北京数据集上λH=0.35时平均绝对误差MAE取得最小值;在Ciao数据集上λH=0.7MAE取得最小值。为了使获得的推荐精度最优,我们这里折中取值λH=0.5,虽然此时在不同的数据集上不能获得最优结果,但能获得平均最优。

    图 5  不同数据集上参数λHMAE关系

    为了降低偏差对预测精度的影响,本文引入两个正则项分别对用户特征和活动特征进行约束,约束参数φϕ分别用于控制用户特征和活动特征受近邻的影响程度。图6图7分别为正则项约束参数φϕ与平均绝对误差MAE间的关系。

    图 6  不同数据集上参数φMAE关系
    图 7  不同数据集上参数ϕMAE关系

    图6可知,在豆瓣北京数据集上,随着用户特征正则项约束参数φ的增大,平均绝对误差MAE大致的走势是先降低后增大,在0.05φ0.08之间,平均绝对误差MAE振荡上升;在Ciao数据集上,随着用户特征正则项约束参数φ的增大,平均绝对误差MAE也是先降低后增大。并且随着训练数据的增多,平均绝对误差MAE越小,算法的推荐预测精度越高。在豆瓣北京数据集上时正则项约束参数φ=0.048时平均绝对误差MAE取得最小值;在Ciao数据集上正则项约束参数φ=0.03MAE取得最小值。综合取用户特征正则项约束参数φ=0.048

    图7为豆瓣北京和Ciao数据集上,活动特征正则项约束参数ϕ与平均绝对误差MAE间的关系。随着正则项约束参数ϕ取值的增大,平均绝对误差MAE呈“W”状波动变化。在豆瓣北京数据集上当ϕ=0.1时平均绝对误差MAE取得最小值;在Ciao数据集上,正则项约束参数ϕ=0.102时,平均绝对误差MAE取得最小值。并且随着训练数据的增多,平均绝对误差MAE越小,算法的推荐预测精度越高。综合取用户特征正则项约束参数ϕ=0.01。上述两个正则项约束参数既不能取值太大,也不能取值太小,取值太大则会控制学习的进度,取值太小就无法起到约束的作用。

    隐特征矩阵维度d也是影响算法性能的因素之一,维度太大可表征的隐藏信息就越多,但引入噪声信息的可能也越大,若维度太小,就无法全面挖掘深层隐藏信息,为此选择恰当的维度至关重要。

    图8曲线走势可知,在豆瓣北京数据集上,随着隐特征矩阵维度d的增大,平均绝对误差MAE先降低后增大后期增幅缓慢,其中维度d=15时,平均绝对误差MAE取得最小值;在Ciao数据集上,随着隐特征矩阵维度d的增大,平均绝对误差MAE先降低后缓慢增加,其中维度d=20时,平均绝对误差MAE取得最小值。无论在豆瓣北京数据集上还是在Ciao数据集上,当隐特征矩阵维度大于一定阈值后,不仅不会降低平均绝对误差,反而缓慢增加,这也侧面反映出隐含特征所能表达的信息是有限的,徒增特征矩阵的维度,不仅不能提升推荐的准确率,反而会引入一些不必要的噪声,降低推荐的精度。

    图 8  不同数据集上维度dMAE关系

    本文仿真实验的硬件环境为:Intel(R) Core(TM) i5-9400F@4.1 GHz, RAM: 4 GB,软件环境为:Windows 7操作系统,Python编程实现。对比实验从两个方面进行:一是对比分析各算法的有效性;二是对比本算法与同类算法对冷启动的敏感性。实验采用八折交叉验证,即将每3个月的活动数据作为子数据集,这样的数据划分主要考虑到同一季度内由于气候和环境的相似,活动项目能聚类出现。

    这里将文献[17](MIMFCF)、文献[12](ISSMF)、文献[19](CSIT)、文献[21](RSNMF)、文献[22](PMF)、文献[23](AODR)、文献[24](CA-NCF)和文献[25](AutoTrustRec)作为对比算法,MIMFCF,ISSMF,CSIT,RSNMF和PMF等5种算法为传统推荐算法,AODR, CA-NCF, AutoTrustRec等3种为深度学习推荐模型。其中MIMFCF提出了两个有效矩阵分解框架,一个集成流形正则化,一个集成动态Tikhonov图正则化;基于二者深入挖掘用户-项目矩阵的内在信息;ISSMF利用整体社交网络结构信息和用户的评分信息推导特定领域社交网络结构,借助Pagerank计算用户在特定领域的社会地位,并将其融入矩阵分解;CSIT将用户信任朋友的影响引入矩阵分解模型中,借助聚类舒缓数据稀疏问题;RSNMF为基于正则项约束的非负矩阵分解算法;AODR使用深度学习从评论文本提取评分矩阵,引入张量因子分解计算加权意见,然后融合扩展协作过滤技术改进推进系统;CA-NCF提出了一种混合算法来追溯和重新利用预筛选上下文信息,并将获得的新维度用于深度学习协作过滤;AutoTrustRec利用深度架构来学习隐藏的用户和项目表示,使用自动编码器中的共享层将直接和间接信任值反馈神经网络。

    为了进一步验证本文算法与其他同类算法的有效性,以平均绝对误差MAE和均方差误差RMSE作为评价标准,分别在豆瓣北京和Ciao数据集上进行对比实验,结果如图9所示。

    图 9  不同数据集上维度dMAE关系

    图9(a)上可以看出,当确定特征维度时,本文算法(MWFPMF)的平均绝对误差是最低的,其次是CSIT, MIMFCF, RSNMF, ISSMF和PMF;特别当特征维度d=15时,本文算法的平均绝对误差MAE取得最小值,至少低于其他5种算法8.24%,此时获得的推荐精度最佳。当增加特征维度,即d=20时各算法的平均绝对误差不仅没有降低,反而增大了,这是由于随着特征维度的增加,其能表达的隐含特征信息加大,无形中引入了噪声,反而降低了算法推荐的准确率。图9(b)中可知,在Ciao数据集上随着特征维度的增大,各算法的推荐准确率在提升,当特征维度d=20时,各算法推荐精度达到最高值,此时本文算法的平均绝对误差至少低于其他5种算法6.58%。

    图10的变化趋势与图9基本一致,从图10(a)可知:在确定维度上,本文算法的均方差误差相较于其他5种算法是最低的,其中当特征维度d=15时,本文算法的均方差误差RMSE取得最小值,至少低于其他5种算法7.83%,所得到的推荐精度最高;图10(b)中可知,在Ciao数据集上随着特征维度的增大,各算法的均方差误差RMSE在降低,当特征维度d=20时,各算法的均方差误差达到最小值,此时本文算法的均方差误差至少低于其他5种算法6.27%。

    图 10  不同数据集上维度dRMSE关系

    为了进一步验证本算法对冷启动用户推荐的精度,这里将用户评分项目少于3个归为冷启动用户,分别从豆瓣北京和Ciao数据集上抽取冷启动用户,以平均绝对误差MAE和均方差误差RMSE作为推荐评价标准,验证各算法对冷启动用户的推荐性能。

    通过表2推荐评价指标对比可知,在豆瓣北京数据集上本文算法对冷启动用户推荐的平均绝对误差相较于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5种传统推荐算法分别降低了5.64%, 8.92%, 11.07%, 20.02%和22.05%,相较于AODR, CA-NCF, AutoTrustRec等3种深度学习推荐模型平均绝对误差分别仅降低了0.9%, 2.82%和6.78%;对冷启动用户推荐的均方差误差相较于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5种传统推荐算法分别降低了8.08%, 10.55%, 13.41%, 20.19%和24.27%,相较于AODR, CA-NCF, AutoTrustRec等3种深度学习推荐模型均方差误差分别仅降低了3.01%, 4.02%和8.61%。

    表 2  各算法对冷启动用户的推荐性能比较
    推荐算法豆瓣北京数据集Ciao数据集
    MAERMSEMAERMSE
    MWFPMF0.84171.05260.83331.0348
    AODR0.84931.08430.84071.0695
    CA-NCF0.86541.09490.85371.0814
    CSIT0.88921.13770.89451.1229
    AutoTrustRec0.89881.14320.89641.1291
    MIMFCF0.91681.16370.91251.1339
    RSNMF0.93491.19380.93681.1954
    ISSMF1.01021.26510.99291.2695
    PMF1.02731.30811.01691.3096
    下载: 导出CSV 
    | 显示表格

    在Ciao数据集上本文算法对冷启动用户推荐的平均绝对误差相较于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5种传统推荐算法分别降低了7.34%, 9.51%, 12.42%, 19.15%和22.03%,相较于AODR, CA-NCF, AutoTrustRec等3种深度学习推荐模型平均绝对误差分别仅降低了0.89%, 2.45%和7.57%;对冷启动用户推荐的均方差误差相较于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5种传统推荐算法分别降低了8.52%, 9.58%, 15.52%, 22.69%和26.56%,相较于AODR, CA-NCF, AutoTrustRec等3种深度学习推荐模型均方差误差分别仅降低了3.35%, 4.5%和9.11%。

    通过以上对比可知,传统矩阵分解推荐模型PMF, ISSMF和RSNMF效果较差,这是由于传统模型仅依赖用户对活动项目的评分并没有充分利用用户间信任去拓展分析信任用户间的兴趣偏好,面对稀疏数据,无法进一步提高推荐的精准性;推荐模型CSIT和MIMFCF的推荐性能较传统矩阵分解推荐模型PMF, ISSMF, RSNMF有较大的提升,这是因为它们集成了1种或多种社交关系到矩阵分解中,通过深入挖掘信任用户间的隐含关联,以求准确获取目标用户的兴趣偏好,一定程度上提高了推荐的精准度。AODR, CA-NCF和AutoTrustRec 3种深度学习推荐算法从不同角度借助深度学习挖掘有限的用户评论信息,同时融合加权意见, 上下文信息等手段进一步提高了推荐精准度,相比其他5种传统算法推荐精度有一定提高,但本文对冷启动用户融合多权重因素借助低秩概率矩阵进行深入分解,隐匿关联信息的挖掘更为充分,推荐性能更为优异。

    为了进一步对比分析传统推荐算法与深度学习推荐模型的性能,这里分别取豆瓣北京和Ciao数据集1%, 50%和100%的数据量进行测试。由于1%的数据量偏少,为了充分利用有限数据,防止过拟合,在1%数据集上采用5折交叉验证,而50%和100%数据集上随机选择80%的数据用于训练,剩余20%用作测试。以平均绝对误差MAE和均方差误差RMSE作为评价标准,结果如下:

    由于图11图12可以得出,数据集测试比例逐渐增大时,各算法推荐的平均绝对误差MAE和均方差误差RMSE随之降低,表明算法的推荐精度在提高。在豆瓣北京数据集上,本文算法推荐的平均绝对误差MAE和均方差误差RMSE都低于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5种传统推荐算法,推荐精度明显高于5种传统推荐算法;与AODR, CA-NCF, AutoTrustRec等3种深度学习推荐模型相比,本文算法在数据集比例较低时(1%数据量),平均绝对误差MAE和均方差误差RMSE均低于3种深度学习推荐模型,表现出了优秀的推荐效果,这是由于本文推荐算法融合用户间信任度、用户社会地位影响力和用户同质性等多权重因素,借助低秩概率矩阵分解对用户-活动进行了深入充分的挖掘,在有限测试数据量下一定程度上提高了推荐精度。随着测试数据集比例的增大,3种深度学习推荐模型的推荐精度提升较快,当以全部数据测试推荐时,AODR推荐算法的平均绝对误差MAE与本文算法接近。

    图 11  豆瓣北京数据集上各算法评价指标
    图 12  Ciao数据集上各算法评价指标

    在Ciao数据集上获得的结果与在豆瓣北京数据集上基本一致,但在以全部数据测试推荐时,AODR推荐算法的平均绝对误差MAE和均方差误差RMSE略低于本文推荐算法。综上可知本文推荐算法较适用于冷启动或数据量较小的推荐场合。

    用户间的信任度、同质性以及在一定范围内的影响力会影响其他用户的决策。本文从社会认知理论着手,将用户间信任度、用户社会地位影响力和用户同质性3因素融入低秩概率矩阵分解中,构建多权重因素的低秩概率矩阵分解推荐模型。本文推荐模型不仅对一般用户有较高的推荐精度,冷启动用户也取得了不错的结果。在现实生活中,用户间的信任、同质性以及社会影响力会随着时间变化而变化,如何随时更新多属性权重,融入深度学习模型中,将是文章下一步的研究重点。

  • 图  1  信任网络

    图  2  具有社会地位影响力的信任网络

    图  3  矩阵分解示意图

    图  4  不同数据集上参数λWMAE关系

    图  5  不同数据集上参数λHMAE关系

    图  6  不同数据集上参数φMAE关系

    图  7  不同数据集上参数ϕMAE关系

    图  8  不同数据集上维度dMAE关系

    图  9  不同数据集上维度dMAE关系

    图  10  不同数据集上维度dRMSE关系

    图  11  豆瓣北京数据集上各算法评价指标

    图  12  Ciao数据集上各算法评价指标

    表  1  参数设置

    参数参数
    用户特征正则化控制参数λUt0.1用户同质性调节参数λH0.5
    活动特征正则化控制参数λSt0.1用户信任网络跳出率ρ0.85
    用户社会影响力调节参数λW5隐特征矩阵维度d15
    梯度学习速率β0.01跳数阈值hθ3
    同质相似性阈值α0.8时间衰减参数δ0.5
    下载: 导出CSV

    表  2  各算法对冷启动用户的推荐性能比较

    推荐算法豆瓣北京数据集Ciao数据集
    MAERMSEMAERMSE
    MWFPMF0.84171.05260.83331.0348
    AODR0.84931.08430.84071.0695
    CA-NCF0.86541.09490.85371.0814
    CSIT0.88921.13770.89451.1229
    AutoTrustRec0.89881.14320.89641.1291
    MIMFCF0.91681.16370.91251.1339
    RSNMF0.93491.19380.93681.1954
    ISSMF1.01021.26510.99291.2695
    PMF1.02731.30811.01691.3096
    下载: 导出CSV
  • [1] CUI Zhihua, XU Xianghua, XUE Fei, et al. Personalized recommendation system based on collaborative filtering for IoT scenarios[J]. IEEE Transactions on Services Computing, 2020, 13(4): 685–695. doi: 10.1109/TSC.2020.2964552
    [2] LI Shugang, SONG Xuewei, LU Hanyu, et al. Friend recommendation for cross marketing in online brand community based on intelligent attention allocation link prediction algorithm[J]. Expert Systems with Applications, 2020, 139: 112839. doi: 10.1016/j.eswa.2019.112839
    [3] AHMADIAN S, AFSHARCHI M, and MEGHDADI M. A novel approach based on multi-view reliability measures to alleviate data sparsity in recommender systems[J]. Multimedia Tools and Applications, 2019, 78(13): 17763–17798. doi: 10.1007/s11042-018-7079-x
    [4] GUO Guibing, ZHANG Jie, and YORKE-SMITH N. A novel recommendation model regularized with user trust and item ratings[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(7): 1607–1620. doi: 10.1109/TKDE.2016.2528249
    [5] WANG Ximeng, LIU Yun, ZHANG Guangquan, et al. Diffusion-based recommendation with trust relations on tripartite graphs[J]. Journal of Statistical Mechanics: Theory and Experiment, 2017, 2017(8): 083405. doi: 10.1088/1742-5468/aa8189
    [6] PAPNEJA S, SHARMA K, and KHILWANI N. Context aware personalized content recommendation using ontology based spreading activation[J]. International Journal of Information Technology, 2018, 10(2): 133–138. doi: 10.1007/s41870-017-0052-5
    [7] CHEN Lingjiao and GAO Jian. A trust-based recommendation method using network diffusion processes[J]. Physica A: Statistical Mechanics and its Applications, 2018, 506: 679–691. doi: 10.1016/j.physa.2018.04.089
    [8] GUAN Jiansheng, XU Min, and KONG Xiangsong. Learning social regularized user representation in recommender system[J]. Signal Processing, 2018, 144: 306–310. doi: 10.1016/j.sigpro.2017.09.015
    [9] AGHDAM M H. Context-aware recommender systems using hierarchical hidden Markov model[J]. Physica A: Statistical Mechanics and Its Applications, 2019, 518: 89–98. doi: 10.1016/j.physa.2018.11.037
    [10] YAO Weilong, HE Jing, HUANG Guangyan, et al. Modeling dual role preferences for trust-aware recommendation[C]. The 37th International ACM SIGIR Conference on Research & Development in Information Retrieval, Queensland, Australia, 2014: 975–978.
    [11] WANG Xin, WANG Ying, and SUN Hongbin. Exploring the combination of dempster-shafer theory and neural network for predicting trust and distrust[J]. Computational Intelligence and Neuroscience, 2016, 2016: 5403105.
    [12] 余永红, 高阳, 王皓, 等. 融合用户社会地位和矩阵分解的推荐算法[J]. 计算机研究与发展, 2018, 55(1): 113–124. doi: 10.7544/issn1000-1239.2018.20160704

    YU Yonghong, GAO Yang, WANG Hao, et al. Integrating user social status and matrix factorization for item recommendation[J]. Journal of Computer Research and Development, 2018, 55(1): 113–124. doi: 10.7544/issn1000-1239.2018.20160704
    [13] 王英, 王鑫, 左万利. 基于社会学理论的信任关系预测模型[J]. 软件学报, 2014, 25(12): 2893–2904.

    WANG Ying, WANG Xin, and ZUO Wanli. Trust prediction modeling based on social theories[J]. Journal of Software, 2014, 25(12): 2893–2904.
    [14] ZHENG Xiaoyao, LUO Yonglong, SUN Liping, et al. A novel social network hybrid recommender system based on hypergraph topologic structure[J]. World Wide Web, 2018, 21(4): 985–1013. doi: 10.1007/s11280-017-0494-5
    [15] TANG Jiliang, GAO Huiji, and LIU Huan. mTrust: discerning multi-faceted trust in a connected world[C]. The Fifth ACM International Conference on Web Search and Data Mining, Washington, USA, 2012: 93–102.
    [16] GAO Honghao, KUANG Li, YIN Yuyu, et al. Mining consuming behaviors with temporal evolution for personalized recommendation in mobile marketing apps[J]. Mobile Networks and Applications, 2020, 25(4): 1233–1248. doi: 10.1007/s11036-020-01535-1
    [17] LI Yangyang, WANG Dong, HE Haiyang, et al. Mining intrinsic information by matrix factorization-based approaches for collaborative filtering in recommender systems[J]. Neurocomputing, 2017, 249: 48–63. doi: 10.1016/j.neucom.2017.03.002
    [18] CHEN Yan, DAI Yongfang, HAN Xiulong, et al. Dig users’ intentions via attention flow network for personalized recommendation[J]. Information Sciences, 2021, 547: 1122–1135. doi: 10.1016/j.ins.2020.09.007
    [19] LI Jun, CHEN Chaochao, CHEN Huiling, et al. Towards context-aware social recommendation via individual trust[J]. Knowledge-Based Systems, 2017, 127: 58–66. doi: 10.1016/j.knosys.2017.02.032
    [20] BI Jianwu, LIU Yang, FAN Zhiping. A deep neural networks based recommendation algorithm using user and item basic data[J]. International Journal of Machine Learning and Cybernetics, 2020, 11(4): 763–777. doi: 10.1007/s13042-019-00981-y
    [21] LUO Xin, ZHOU Mengchu, XIA Yunni, et al. An efficient non-negative matrix-factorization-based approach to collaborative filtering for recommender systems[J]. IEEE Transactions on Industrial Informatics, 2014, 10(2): 1273–1284. doi: 10.1109/TII.2014.2308433
    [22] SALAKHUTDINOV R and MNIH A. Probabilistic matrix factorization[C]. The 20th International Conference on Neural Information Processing Systems, Red Hook, USA, 2007: 1257–1264.
    [23] DA’U A, SALIM N, RABIU I, et al. Weighted aspect-based opinion mining using deep learning for recommender system[J]. Expert Systems with Applications, 2020, 140: 112871. doi: 10.1016/j.eswa.2019.112871
    [24] JAWARNEH I M A, BELLAVISTA P, CORRADI A, et al. A pre-filtering approach for incorporating contextual information into deep learning based recommender systems[J]. IEEE Access, 2020, 8: 40485–40498. doi: 10.1109/ACCESS.2020.2975167
    [25] BATHLA G, AGGARWAL H, and RANI R. AutoTrustRec: recommender system with social trust and deep learning using AutoEncoder[J]. Multimedia Tools and Applications, 2020, 79(29): 20845–20860.
  • 期刊类型引用(5)

    1. 康海燕,胡成倩. 基于特征提取和集成学习的个人信用评分方法. 计算机仿真. 2024(01): 311-320 . 百度学术
    2. 郭佳,郑山红,陈闯,王国春. 融合元学习和注意力机制的跨域推荐算法研究. 计算机仿真. 2024(12): 344-348 . 百度学术
    3. 郭英清,王敏,肖明胜. 结合深度知识追踪与矩阵补全的习题推荐方法. 计算机技术与发展. 2023(07): 188-195 . 百度学术
    4. 张亚加,邱啟蒙,刘恒,邵建龙. 结合潜在低秩分解和稀疏表示的脑部图像融合. 光电子·激光. 2023(11): 1225-1232 . 百度学术
    5. 张亚加,邱啟蒙,刘恒,马勋国,邵建龙. 稀疏表示在脑部图像融合研究中的进展. 陕西理工大学学报(自然科学版). 2022(05): 39-47 . 百度学术

    其他类型引用(5)

  • 加载中
图(12) / 表(2)
计量
  • 文章访问数:  958
  • HTML全文浏览量:  576
  • PDF下载量:  78
  • 被引次数: 10
出版历程
  • 收稿日期:  2021-01-05
  • 修回日期:  2021-06-30
  • 网络出版日期:  2021-07-09
  • 刊出日期:  2022-02-25

目录

/

返回文章
返回