Application of Improved Memristor in Character Associative Memory
-
摘要: 忆阻因具有阻值可调、记忆特性以及纳米尺寸等特点,非常适合作为实现神经网络突触的电子元器件。为构建出更加符合真实物理忆阻器特性的忆阻器模型,该文在现有忆阻器模型的基础之上,克服了边界锁定、正负电压调整速率问题以及电路结构通用性问题,提出一种改进忆阻器模型。然后结合Pavlov联想记忆实验和Hopfield神经网络理论设计出了该文的字符联想记忆电路。电路结构主要有输入信号模块、突触阵列模块、激活函数模块以及反馈控制模块。该电路可以解决因传统阵列模块使用电阻作为突触模块的灵活性问题,而且还可以实现对3阶字符模糊图像的自联想功能。此外,该电路与深度学习相关的卷积计算模块原理类似,为实现基于忆阻的智能硬件奠定了理论基础。Abstract: Memristor is a very suitable electronic component for synapse of neural network because of its adjustable resistance, memory property and nano size. In order to build a memristor model more consistent with the characteristics of real physical memristors, an improved memristor model is proposed based on existing ones to overcome the problems of boundary locking, positive and negative voltage rate adjustment and the universality of circuit structure. Then combining Pavlov associative memory experiment and Hopfield neural network theory, the character associative memory circuit is designed in this paper. The circuit structure includes mainly input signal module, synaptic array module, activation function module and feedback control module. This circuit can solve the flexibility problem of using resistors as synaptic modules in traditional array modules, and can also realize the self-association function of third-order character blurred images. In addition, the circuit is similar to the convolutional computation module related to deep learning, and provides a theoretical basis for realizing memristor-based intelligent hardware.
-
Key words:
- Memristor /
- Neural network /
- Circuit design /
- Associative memory
-
1. 引言
聚类就是对数据样本进行分组,使得同一组中的样本相对相似,而不同组中的样本相对不同。在过去的几十年里,已经提出了许多聚类算法,如模糊C均值聚类[1,2]、谱聚类[3,4]、最大熵聚类[5,6]等。聚类技术已经在许多工程领域得到了广泛的应用,例如故障检测[7]、图像分割[8]等。但目前许多聚类算法只有在有足够高质量样本的前提下才能产生良好的聚类结果。但在实践中,存在着样本数量不足、质量差等问题,这大大影响了聚类算法的性能。迁移聚类正是为解决这一问题而提出的。
迁移聚类[9]就是通过利用源域中的有用信息,来提高目标域的聚类效果。近年来,国内外学者从不同角度对迁移聚类进行了研究,并取得了一些重要研究成果。现有的迁移聚类算法根据迁移方式,大致可以分为4类[9]:基于实例的迁移方法[10],该方法假设源域中的部分样本可以通过重加权的方式在目标域中被利用;基于参数的迁移方法[11-20],该方法假设源域与目标域模型有相似的参数和先验分布;基于特征表示的迁移方法[21-26],该方法的核心思想是为目标域学习一个更有利于聚类的特征表示;基于相关性的迁移方法[27-30],该方法通过在源域与目标域之间构建相关知识的映射来提高目标域的聚类性能。
基于参数的迁移方法是目前迁移聚类研究的一个热点,目前已经发展了许多基于参数的迁移聚类算法。Deng等人[11]提出了迁移模糊C均值(Transfer Fuzzy C-Means, TFCM) 聚类算法,该算法将迁移学习的概念应用于基于原型的模糊C均值(Fuzzy C-Means, FCM) 聚类,通过将源域的聚类中心作为迁移知识来构建TFCM的目标函数,以提高目标域的聚类效果。 Gargees等人[12]提出了迁移可能性C均值(Transfer Learning Possibilistic C-Means, TLPCM)聚类算法,与TFCM类似,源域的聚类中心也被作为迁移知识来指导目标域数据的聚类。
但上述基于参数的迁移聚类算法受域间差异的影响较大,当源域与目标域的分布差异较大时,迁移学习的效果会减弱,甚至会出现负迁移。针对这一问题,本文提出一种基于最大平均差异的迁移模糊C均值(Transfer Fuzzy C-Means based on Maximum Mean Discrepancy, TFCM-MMD)聚类算法。TFCM-MMD借鉴基于特征表示的迁移方法的核心思想,通过对源域与目标域数据进行投影的方式,解决域间差异大的问题。基于最大平均差异(Maximum Mean Discrepancy, MMD)准则[23,24],通过将源域和目标域数据投影到公共子空间,以减小源域和目标域分布的差异,从而提高聚类的鲁棒性。
2. 相关工作
2.1 迁移模糊C均值聚类算法
现有的许多经典的聚类算法,如FCM,只有在样本数量充足、质量良好的前提下才能产生较好的聚类结果。但在实践中,经常存在着样本数量不足、质量差等问题,这在一定程度上影响了聚类的效果。基于这一问题,Deng等人[11]提出了TFCM聚类算法。TFCM在保留了FCM目标函数基本结构的基础上,将从源域学习到的聚类中心和源域与目标域之间的聚类中心相关性矩阵引入到TFCM聚类算法的目标函数中,得到TFCM的目标函数为
minJTFCM=Nt∑i=1Ct∑j=1um1ij||xi−vj||2+λCs∑k=1Ct∑j=1rm2kj||˜vk−vj||2,s.t.uij,rkj∈[0,1],Ct∑j=1uij=1,Ct∑j=1rkj=1 (1) 其中,
xi 表示目标域第i个样本,vj 表示目标域第j个聚类中心,˜vk 表示源域中第k个聚类中心,uij 表示第i个样本对第j个聚类中心的隶属度,rkj 表示源域第k个聚类中心和目标域第j个聚类中心的相关性,m1 ,m2 是模糊加权系数,λ 表示迁移率,Cs 和Ct 分别表示源域和目标域聚类中心的个数。2.2 最大平均差异
在迁移学习中,一个基本问题是如何评价源域和目标域之间的分布差异。而MMD作为一种非参数估计准则,被广泛用于分布的比较。假设
Xs={x1,s, x2,s,⋯, xNs,s} , Xt = { x1,t, x2,t,⋯, xNt,t} 分别表示来自源域和目标域的样本集,且分别服从分布Ps(Xs) 和Pt(Xt) ,则基于MMD准则度量源域与目标域的分布差异可表示为Dist(Ps(Xs),Pt(Xt))=‖ (2) 其中,
\varPhi ( \cdot ) 是一个映射函数,用于将源域数据与目标域数据映射到公共子空间中。3. 基于最大平均差异的迁移模糊C均值聚类算法
本节提出一种基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD,以解决TFCM在源域与目标域分布差异较大时迁移学习效果减弱的问题。3.1节介绍了TFCM-MMD算法的基本思路,3.2节提出了TFCM-MMD的目标函数,3.3节给出了求解TFCM-MMD目标函数的方法,3.4节是对算法的总结与分析。
3.1 算法基本思路
在迁移学习中,通常假设源域与目标域的数据分布类似。但是在实际应用过程中,更多的情况是源域与目标域的分布差异较大,进而导致迁移学习效果减弱,甚至出现负迁移。基于这一问题,提出了基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD。TFCM-MMD的算法思路如图1所示。首先通过FCM聚类算法获得源域的聚类中心, 随后学习一个投影矩阵使得投影后源域数据与目标域数据的分布差异尽可能小,最后在公共子空间中利用投影后的源域聚类中心指导投影后的目标域数据进行聚类。
3.2 TFCM-MMD目标函数
考虑存在一个公共子空间具有投影矩阵
{\boldsymbol{H}} \subseteq {{\boldsymbol{R}}^{r \times d}} (其中r是公共子空间的维度,确定了数据投影后的特征维数,d是原始数据的维数)。假设源域和目标域中的样本具有相同的维度d,可使用投影矩阵{\boldsymbol{H}} 将源域和目标域数据投影到公共子空间。 源域中的第i个样本{{\boldsymbol{x}}_{i,{\text{s}}}} 和目标域中的第i个样本{{\boldsymbol{x}}_{i,{\text{t}}}} 投影到特征维度为r的公共子空间内,可分别表示为{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{s}}}} 和{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{t}}}} 。 基于MMD准则,公共子空间中源域和目标域分布的差异可以通过投影变换后源域样本均值和目标域样本均值之间的距离来计算\begin{split} {\text{Dist}}({P_{\text{s}}}{\text{,}}\;{P_{\text{t}}}) =& \left\|\frac{1}{{{N_{\text{t}}}}}\sum\limits_{i = 1}^{{N_{\text{t}}}} {{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{t}}}} - } \frac{1}{{{N_{\text{s}}}}}\sum\limits_{i = 1}^{{N_{\text{s}}}} {{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{s}}}}} \right\|^2 \\ =& \frac{1}{{N_{\text{t}}^{\text{2}}}}\sum\limits_{i = 1}^{{N_{\text{t}}}} {\sum\limits_{j = 1}^{{N_{\text{t}}}} {{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{t}}}}} } {\boldsymbol{x}}_{j,{\text{t}}}^{\rm T}{{\boldsymbol{H}}^{\rm T}} \\ &+ \frac{1}{{N_{\text{s}}^{\text{2}}}}\sum\limits_{i = 1}^{{N_{\text{s}}}} {\sum\limits_{j = 1}^{{N_{\text{s}}}} {{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{s}}}}} } {\boldsymbol{x}}_{j,{\text{s}}}^{\rm T}{{\boldsymbol{H}}^{\rm T}} \\ &- \frac{2}{{{N_{\text{t}}}{N_{\text{s}}}}}\sum\limits_{i = 1}^{{N_{\text{t}}}} {\sum\limits_{j = 1}^{{N_{\text{s}}}} {{\boldsymbol{H}}{{\boldsymbol{x}}_{i,{\text{t}}}}} } {\boldsymbol{x}}_{j,{\text{s}}}^{\rm T}{{\boldsymbol{H}}^{\rm T}} \end{split} (3) 设
\varOmega = \dfrac{1}{{N_{\text{t}}^{\text{2}}}}\displaystyle\sum\nolimits_{i = 1}^{{N_{\text{t}}}} {\displaystyle\sum\nolimits_{j = 1}^{{N_{\text{t}}}} {{{\boldsymbol{x}}_{i,{\text{t}}}}{\boldsymbol{x}}_{j,{\text{t}}}^{\rm{T}}} } +\dfrac{1}{{N_{\text{s}}^{\text{2}}}}\displaystyle\sum\nolimits_{i = 1}^{{N_{\text{s}}}} \displaystyle\sum\nolimits_{j = 1}^{{N_{\text{s}}}} {{{\boldsymbol{x}}_{i,{\text{s}}}}{\boldsymbol{x}}_{j,{\text{s}}}^{\rm{T}}} - \dfrac{2}{{{N_{\text{t}}}{N_{\text{s}}}}}\displaystyle\sum\nolimits_{i = 1}^{{N_{\text{t}}}} {\displaystyle\sum\nolimits_{j = 1}^{{N_{\text{s}}}} {{{\boldsymbol{x}}_{i,{\text{t}}}}{\boldsymbol{x}}_{j,{\text{s}}}^{\rm{T}}} } ,式(3)可进一步简化表示为{\text{Dist}}({P_{\text{s}}},\;{P_{\text{t}}}){\text{ = }}{\boldsymbol{H}}\varOmega {{\boldsymbol{H}}^{\rm{T}}},\quad {\text{s}}{\text{.t}}{\text{.}}\quad {\boldsymbol{H}}{{\boldsymbol{H}}^{\rm{T}}} = {{\boldsymbol{I}}_{r \times r}} (4) 其中,I是维度为r的单位矩阵。约束条件保证了投影矩阵H是正交矩阵。通过最小化式(4),即可缩小源域与目标域的域间差异,提高迁移聚类的效果。
将式(4)引入到TFCM的目标函数中,得到基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD的目标函数为
\begin{split} &\mathrm{min}{J}_{\text{TFCM\_MMD}}\\ & \quad= {\displaystyle \sum _{i=1}^{{N}_{\text{t}}}{\displaystyle \sum _{j=1}^{{C}_{\text{t}}}{u}_{ij}^{{m}_{1}}\left|\right|{\boldsymbol{H}}{{\boldsymbol{x}}}_{i}-{{\boldsymbol{v}}}_{j}|{|}^{2}}}\\ & \qquad +\lambda {\displaystyle \sum _{k=1}^{{C}_{\text{s}}}{\displaystyle \sum _{j=1}^{{C}_{\text{t}}}{r}_{kj}^{{m}_{2}}\left|\right|{\boldsymbol{H}}{\tilde{{\boldsymbol{v}}}}_{k}-{{\boldsymbol{v}}}_{j}|{|}^{2}}}+{\boldsymbol{H}}\varOmega {{\boldsymbol{H}}}^{{\rm{T}}},\\ & \text{s}.\text{}\text{t}.\;{u}_{ij},{r}_{kj}\in [0,1],{\displaystyle \sum _{j=1}^{{C}_{\text{t}}}{u}_{ij}=1,}{\displaystyle \sum _{j=1}^{{C}_{\text{t}}}{r}_{kj}}=1 \end{split} (5) 其中,
{{\boldsymbol{x}}_i} 表示目标域第i个样本,{{\boldsymbol{v}}_j} 表示目标域第j个聚类中心,{\tilde {\boldsymbol{v}}_k} 是源域第k个聚类中心,\lambda 是迁移系数,用于控制迁移学习的程度。对于式(5)有以下说明:
(1) TFCM-MMD目标函数的第1项是在FCM目标函数的基础上,引入了投影算子H,将目标域数据投影到公共子空间中进行聚类。
(2) TFCM-MMD目标函数的第2项在TFCM目标函数第2项的基础上,引入了投影算子H,将源域聚类中心投影到公共子空间中来指导公共子空间中目标域数据的聚类。
(3) TFCM-MMD目标函数的第3项通过最小化投影变换后域间分布差异,来提高迁移学习的效果。
(4) TFCM-MMD中所涉及的模糊加权系数
{m_1} ,{m_2} 影响着模糊聚类结果的模糊程度,当{m_1} = {m_2} = 1 ,算法退化为硬聚类。文献[31]根据聚类有效性得出模糊加权系数的最佳取值范围为[1.5, 2.5],因此可以利用网格搜索策略在该区间内寻找{m_1} ,{m_2} 的最佳取值。(5) 迁移率λ的选取取决于实际的应用场景,可利用网格搜索策略通过优化聚类评价指标寻找最优的λ值。
3.3 优化过程
为了处理式(5)的约束条件,可通过引入拉格朗日乘子
{\alpha _i} 和{\beta _k} ,构造如式(6)的拉格朗日目标函数\begin{split} J =& {J_{{\text{TFCM - MMD}}}} + \sum\limits_{i = 1}^{{N_{\text{t}}}} {{\alpha _i}\left(1 - \sum\limits_{j = 1}^{{C_{\text{t}}}} {{u_{ij}}} \right)} \\ & + \sum\limits_{k = 1}^{{C_{\text{s}}}} {{\beta _k}\left(1 - \sum\limits_{j = 1}^{{C_{\text{t}}}} {{r_{kj}}} \right)} \end{split} (6) 式(6)的解与矩阵U, H, V和R均有关,因此采用迭代优化策略求解,在迭代算法中逐个优化U, H, V和R,即当一个参数被更新时,其他参数固定。
首先固定U, H, R,求J关于V的偏导数,并使偏导数为0,可得到
{{\boldsymbol{v}}_j} = \frac{{\displaystyle\sum\limits_{i = 1}^{{N_{\text{t}}}} {u_{ij}^{{m_1}}{\boldsymbol{H}}{{\boldsymbol{x}}_i} + \lambda \displaystyle\sum\limits_{k = 1}^{{C_{\text{s}}}} {r_{kj}^{{m_2}}{\boldsymbol{H}}{{\tilde {\boldsymbol{v}}}_k}} } }}{{\displaystyle\sum\limits_{i = 1}^{{N_{\text{t}}}} {u_{ij}^{{m_1}} + \lambda \displaystyle\sum\limits_{k = 1}^{{C_{\text{s}}}} {r_{kj}^{{m_2}}} } }},\;\;\;\;\;j = 1,2,\cdots,{C_{\text{t}}} (7) 再固定V, H, R,求J关于U的偏导数,并使偏导数为0,可得到
\begin{split} & {u_{ij}} = \frac{{{{({\boldsymbol{H}}{{\boldsymbol{x}}_i} - {{\boldsymbol{v}}_j})}^{ - 2/({m_1} - 1)}}}}{{\displaystyle\sum\limits_{l = 1}^{{C_{\text{t}}}} {{{({\boldsymbol{H}}{{\boldsymbol{x}}_i} - {{\boldsymbol{v}}_l})}^{ - 2/({m_1} - 1)}}} }},\\ & \quad\; i = 1,2,\cdots,{N_{\text{t}}},\;j = 1,2,\cdots,{C_{\text{t}}} \end{split} (8) 再固定U, H, V,求J关于R的偏导数,并使偏导数为0,可得到
\begin{split} & {r_{kj}} = \frac{{{{({\boldsymbol{H}}{{\tilde {\boldsymbol{v}}}_k} - {{\boldsymbol{v}}_j})}^{ - 2/({m_2} - 1)}}}}{{\displaystyle\sum\limits_{l = 1}^{{C_{\text{t}}}} {{{({\boldsymbol{H}}{{\tilde {\boldsymbol{v}}}_k} - {{\boldsymbol{v}}_l})}^{ - 2/({m_2} - 1)}}} }},\\ & \quad\; k = 1,2,\cdots,{C_{\text{s}}},\;j = 1,2,\cdots,{C_{\text{t}}} \end{split} (9) 投影矩阵H的迭代较为复杂,在这里先引入一些符号表示
\left.\begin{split} & {\overline {\boldsymbol{U}} _1} = [{u_{11}},\cdots,{\kern 1pt} {\kern 1pt} {u_{i1}},\cdots,{u_{{N_{\text{t}}}1}}] \in {{\boldsymbol{R}}^{1 \times {N_{\text{t}}}}}\\ & \overline {\boldsymbol{U}} = [{\overline {\boldsymbol{U}} _1},{\overline {\boldsymbol{U}} _2},\cdots,{\overline {\boldsymbol{U}} _{{C_{\text{t}}}}}] \in {{\boldsymbol{R}}^{1 \times {C_{\text{t}}} {N_{\text{t}}}}}\\ & \overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{U}}} = {\rm{diag}}(\overline {\boldsymbol{U}} ) \in {{\boldsymbol{R}}^{{C_{\rm{t}}} \cdot {N_{\text{t}}} \times {C_{\text{t}}} {N_{\text{t}}}}} \\ & {\overline {\boldsymbol{R}} _1} = [{r_{11}},\cdots,{r_{k1}},\cdots,{r_{{C_{\text{s}}}1}}] \in {{\boldsymbol{R}}^{1 \times {C_{\text{s}}}}}\\ &\overline {\boldsymbol{R}} = [{\overline {\boldsymbol{R}} _1},{\overline {\boldsymbol{R}} _2},\cdots,{\overline {\boldsymbol{R}} _{{C_{\text{t}}}}}] \in {{\boldsymbol{R}}^{1 \times {C_{\text{t}}} {C_{\text{s}}}}}\\ & \overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{R}}} = {\rm{diag}}(\overline {\boldsymbol{R}} ) \in {{\boldsymbol{R}}^{{C_{\text{t}}} {C_{\text{s}}} \times {C_{\text{t}}} {C_{\text{s}}}}} \end{split}\right\} (10) 令
\left. \begin{split} & {{\boldsymbol{V}}_1} = \underbrace {[{{\boldsymbol{I}}_{\text{1}}},{{\boldsymbol{I}}_{\text{1}}},\cdots,{{\boldsymbol{I}}_{\text{1}}}]}_{{C_{\text{t}}}} \in {{\boldsymbol{R}}^{{N_{\text{t}}} \times {C_{\text{t}}} {N_{\text{t}}}}}\\ & {{\boldsymbol{V}}_2} = \underbrace {[{{\boldsymbol{I}}_{\text{2}}},{{\boldsymbol{I}}_{\text{2}}},\cdots,{{\boldsymbol{I}}_{\text{2}}}]}_{{C_{\text{t}}}} \in {{\boldsymbol{R}}^{{C_{\text{s}}} \times {C_{\text{t}}} {C_{\text{s}}}}} \end{split}\right\} (11) 其中,
{{\boldsymbol{I}}}_{\text{1}}\in {{\boldsymbol{R}}}^{{N}_{\text{t}}\times {N}_{\text{t}}}, {{\boldsymbol{I}}}_{2}\in {{\boldsymbol{R}}}^{{C}_{\text{s}}\times {C}_{\text{s}}} ,{{\boldsymbol{I}}_{\text{1}}} 和{{\boldsymbol{I}}_2} 是单位矩阵\left. \begin{split} & {{\boldsymbol{Q}}_1} = [{{\boldsymbol{q}}_{1,1}},{{\boldsymbol{q}}_{1,2}},\cdots,{{\boldsymbol{q}}_{1,{C_{\text{t}}}}}] \in {{\boldsymbol{R}}^{r \times {C_{\text{t}}} \times {N_{\text{t}}}}} \\ & {{\boldsymbol{Q}}_2} = [{{\boldsymbol{q}}_{2,1}},{{\boldsymbol{q}}_{2,2}},\cdots,{{\boldsymbol{q}}_{2,{C_{\text{t}}}}}] \in {{\boldsymbol{R}}^{r \times {C_{\text{t}}} \times {C_{\text{s}}}}} \end{split}\right\} (12) 其中,
{{\boldsymbol{q}}_{1,i}} = \underbrace {[{{\boldsymbol{v}}_i},{{\boldsymbol{v}}_i},\cdots,{{\boldsymbol{v}}_i}]}_{{N_{\text{t}}}} \in {{\boldsymbol{R}}^{r \times {N_{\text{t}}}}} ,{{\boldsymbol{q}}_{2,i}} = \underbrace {[{{\boldsymbol{v}}_i},{{\boldsymbol{v}}_i},\cdots,{{\boldsymbol{v}}_i}]}_{{C_{\text{s}}}} \in {{\boldsymbol{R}}^{r \times {C_{\text{s}}}}} 。将式(8)—式(12)代入式(5),式(5)中关于H的优化问题可以转化为
\begin{split} \min G({\boldsymbol{H}}) =& {\rm{tr}}(({\boldsymbol{H}}{{\boldsymbol{X}}_{\text{t}}}{{\boldsymbol{V}}_1} - {{\boldsymbol{Q}}_1})\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{U}}}^{\rm{T}} {({\boldsymbol{H}}{{\boldsymbol{X}}_{\text{t}}}{{\boldsymbol{V}}_1} - {{\boldsymbol{Q}}_1})}) \\ & + {\rm{tr}}(\lambda ({\boldsymbol{H}}{\tilde {\boldsymbol{V}}_{\text{s}}}{{\boldsymbol{V}}_{\text{2}}} - {{\boldsymbol{Q}}_{\text{2}}})\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{R}}}^{\rm{T}} {({\boldsymbol{H}}{\tilde {\boldsymbol{V}}_{\text{s}}}{V_2} - {{\boldsymbol{Q}}_2})}) \\ & + {\rm{tr}}({\boldsymbol{H}}\varOmega {{\boldsymbol{H}}^{\rm{T}}})\\[-10pt] \end{split} (13) 求G(H)关于H的偏导数为
\begin{split} \frac{{\partial G}}{{\partial {\boldsymbol{H}}}} =& 2({\boldsymbol{H}}{{\boldsymbol{X}}_{\text{t}}}{{\boldsymbol{V}}_1}\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{U}}} {\boldsymbol{V}}_1^{\rm{T}}{\boldsymbol{X}}_{\text{t}}^{\rm{T}} - {{\boldsymbol{Q}}_1}\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{U}}} {\boldsymbol{V}}_1^{\rm{T}}{\boldsymbol{X}}_{\text{t}}^{\rm{T}}) \\ & + 2\lambda ({\boldsymbol{H}}{\tilde {\boldsymbol{V}}_{\text{s}}}{{\boldsymbol{V}}_2}\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{R}}} {\boldsymbol{V}}_2^{\rm{T}}\tilde {\boldsymbol{V}}_{\text{s}}^{\rm{T}} - {{\boldsymbol{Q}}_2}\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{R}}} {\boldsymbol{V}}_2^{\rm{T}}\tilde {\boldsymbol{V}}_{\text{s}}^{\rm{T}}) + 2{\boldsymbol{H}}\varOmega \end{split} (14) 可采用梯度下降法来计算最优H。设置H的初始值H0,H的迭代更新过程为
{\boldsymbol{H}} \leftarrow {\boldsymbol{H}} - \eta \frac{{\partial G}}{{\partial {\boldsymbol{H}}}} (15) 3.4 算法总结与分析
本文所提算法首先通过FCM获得源域的聚类中心,然后执行3.3节的迭代优化过程,直到满足停止条件停止迭代,得到最终的模糊隶属度矩阵U。 通过U将每个目标域数据聚到模糊隶属度最大的一类,从而得到目标域数据的聚类结果。TFCM-MMD的算法流程如算法1所示。
算法1 TFCM-MMD 输入:源域数据{{\boldsymbol{X}}_{\text{s} } }, 目标域数据{{\boldsymbol{X}}_{\text{t} } },源域聚类数 {C_{\text{s}}} , 目标域聚类数 {C_{\text{t}}} ,模糊加权系数 {m_1} , {m_2} ,迁移率λ,学习率η, 最大迭代次数nmax,
终止阈值 \varepsilon输出:目标域模糊隶属度矩阵{\boldsymbol{U}} (1) 根据源域聚类数 {C_{\text{s}}} , 利用FCM对源域数据{{\boldsymbol{X}}_{\text{s} } }进行聚类, 获得源域的聚类中心{\tilde {\boldsymbol{V}}_k}; (2) 根据目标域聚类数 {C_{\text{t}}} 初始化模糊隶属度矩阵{\boldsymbol{U}}(0),聚类中心相关性矩阵{\boldsymbol{R}}(0),根据投影后矩阵的维数r初始化投影矩阵{\boldsymbol{H}}(0),迭代次
数t=0;(3) 重复; (4) t=t+1; (5) 利用式(7)计算聚类中心{\boldsymbol{V}}(t); (6) 利用式(8)计算模糊隶属度矩阵{\boldsymbol{U}}(t); (7) 利用式(9)计算聚类中心相关性矩阵{\boldsymbol{R}}(t); (8) 利用式(15)计算投影矩阵{\boldsymbol{H}}(t); (9) 直到 |{J_{{\text{TFCM - MMD}}}}(t) - {J_{{\text{TFCM - MMD}}}}(t - 1)| < \varepsilon 或者 t>nmax (1) 复杂度分析:考虑到绝大多数情况下,目标域的样本个数
{N_{\text{t}}} 要大于源域的聚类个数{C_{\text{s}}} 。因此TFCM-MMD算法的复杂度为O({C_{\text{t}}} \times {N_{\text{t}}}) ,其中{C_{\text{t}}} 是目标域的聚类个数,{N_{\text{t}}} 是目标域的样本数。(2) 收敛性分析:基于Zangwill收敛定理[32],采用类似于文献[33]的证明方法可以验证TFCM-MMD算法的收敛性。与类FCM算法相似,求解TFCM-MMD目标函数这一非凸优化问题只能得到局部最优解,但局部最优解在大多数实际应用中都已足够有效。
4. 实验
首先在合成数据集和医学图像数据集上对TFCM-MMD与TFCM在域间差异大情况下的聚类性能进行对比。接着将TFCM-MMD与基于最大平均差异的模糊C均值聚类算法(Fuzzy C-Means based on Maximum Mean Discrepancy, FCM-MMD)[24]进行对比,以说明基于参数的迁移聚类算法相较于基于实例的迁移聚类算法的优势。最后研究模糊系数、学习率和终止阈值对算法性能的影响。聚类性能通过聚类评价指标准确率(ACcuracy, AC)、兰德系数(Rand Index, RI)和戴维森堡丁指数(Davies-Bouldin index, DB)进行评估,其中AC, RI越大表示聚类性能越好,DB越小表示聚类性能越好。
4.1 合成数据集实验
首先使用高斯分布合成数据集进行实验验证。令
{\boldsymbol{\mu}}_i 和{\boldsymbol{\varSigma}}_i 分别表示生成数据集中第i个类的均值向量和协方差矩阵。实验共进行两组,分别讨论源域与目标域聚类数相同和不同两种情况:(1)聚类数相同:生成源域数据集S1_1中3个类的均值向量和协方差矩阵为{\boldsymbol{\mu}}_1 = [–10, 0],{\boldsymbol{\varSigma}}_1 = [2, 0; 0, 2],{\boldsymbol{\mu}}_2 = [0, 10],{\boldsymbol{\varSigma}}_2 = [2, 0; 0, 2],{\boldsymbol{\mu}}_3 = [10, 0],{\boldsymbol{\varSigma}}_3 = [2, 0; 0, 2],其中每个类包含200个样本。生成目标域数据集T1_1中3个类的均值向量和协方差矩阵为{\boldsymbol{\mu}}_1 = [–2, 0],{\boldsymbol{\varSigma}}_1 = [2, 0; 0, 2],{\boldsymbol{\mu}}_2 = [0, 2],{\boldsymbol{\varSigma}}_2 = [2, 0; 0, 2],{\boldsymbol{\mu}}_3 = [2, 0],{\boldsymbol{\varSigma}}_3 = [2, 0; 0, 2],其中每个类只包含10个样本。 (2) 聚类数不同:生成源域数据集S1_2中4个类的均值向量和协方差矩阵为{\boldsymbol{\mu}}_1 = [–10, 0],{\boldsymbol{\varSigma}}_1 = [2, 0; 0, 2],{\boldsymbol{\mu}}_2 = [0, 10],{\boldsymbol{\varSigma}}_2 = [2, 0; 0, 2],{\boldsymbol{\mu}}_3 = [10, 0],{\boldsymbol{\varSigma}}_3 = [2, 0; 0, 2],{\boldsymbol{\mu}}_4 = [0, –10],{\boldsymbol{\varSigma}}_4 = [2, 0; 0, 2],其中每个类包含200个样本。生成目标域数据集T1_2中3个类的均值向量和协方差矩阵为{\boldsymbol{\mu}}_1 = [–2, 0],{\boldsymbol{\varSigma}}_1 = [2, 0; 0, 2],{\boldsymbol{\mu}}_2 = [0, 2],{\boldsymbol{\varSigma}}_2 = [2, 0; 0, 2],{\boldsymbol{\mu}}_3 = [2, 0],{\boldsymbol{\varSigma}}_3 = [2, 0; 0, 2],其中每个类只包含10个样本。图2和图3分别给出了源域和目标域聚类数相同和不同两种情况下TFCM-MMD与TFCM的聚类性能对比。由以上实验结果可以得到如下结论:
(1) TFCM的聚类性能在源域与目标域分布差异很大时随着λ的增大逐渐变差,其聚类性能甚至差于FCM (λ=0时TFCM退化为FCM),说明此时迁移学习是无效的。
(2) TFCM-MMD通过缩小域间差异,提高了迁移学习的效果。当选择合适的λ值时,TFCM-MMD的聚类性能优于FCM。
(3) 当λ值较大时,TFCM-MMD的聚类性能也要优于TFCM,说明TFCM-MMD抗负迁移的能力更强。
(4) 无论源域与目标域聚类数目是否相同,TFCM-MMD聚类算法的聚类性能较TFCM均有一定的提高。
4.2 医学图像数据集实验
本节选择的数据集选自麦吉尔(McGill)大学Montreal神经所大脑成像中心的Brain Web反震脑部磁共振成像(Magnetic Resonance Imaging, MRI)图像数据库[34]。该数据库提供了不同扫描厚度、噪声以及偏移场的脑MRI图像,且对所有脑MRI图像均提供了标准分割结果。本实验选择的源域图像层数为80,噪声水平为0%, 目标域图像层数为85。为了模拟目标域数据被污染的情形,分别添加均值为0.1, 0.2和0.3,方差为0.004的高斯噪声。实验用到的源域图像和3张目标域图像如图4所示,可见源域图像与目标域图像存在较大的域间差异。图5—图7给出了不同噪声水平下TFCM与TFCM-MMD的聚类性能对比,表1给出了不同噪声水平下TFCM与TFCM-MMD抗负迁移性能比较。
由以上实验结果可以得到以下结论:
(1) 由图5—图7可以看出,当图像被有偏噪声污染时,TFCM的聚类性能随着λ的增大逐渐变差,且聚类性能差于FCM(λ=0),说明此时迁移学习无效,产生了负迁移。
(2) 由图5—图7可以看出,TFCM-MMD通过缩小域间差异,提高了迁移学习的效果,当选择合适的λ值时,TFCM-MMD的聚类性能要优于FCM,并且无论λ取何值,TFCM-MMD的聚类性能均优于TFCM在该λ值下的聚类性能,说明TFCM-MMD抗负迁移能力优于TFCM。
(3) 由表1可以看出,当λ值很大时,随着噪声偏差的增大,TFCM-MMD对于负迁移的抑制作用更加明显,相较于TFCM聚类性能的提升从0.5%上涨到了6.2%。
表 1 不同噪声水平下TFCM与TFCM-MMD抗负迁移性能比较(以AC为例)(%)目标域数据 TFCM最差聚类结果 TFCM-MMD最差聚类结果 聚类性能提升 T2-1 69.86 70.36 0.5 T2-2 67.64 71.67 4.0 T2-3 61.21 67.40 6.2 4.3 与FCM-MMD的聚类性能对比
本节将TFCM-MMD与另外一种先进的针对域间差异大的迁移聚类算法FCM-MMD进行对比,FCM-MMD通过投影的方式缩小源域和目标域数据的分布差异,随后将投影后的源域与目标域数据一起聚类,以提高目标域数据的聚类性能。本节将通过TFCM-MMD与FCM-MMD的对比,来说明基于参数的迁移聚类算法相较于基于实例的迁移聚类算法的优势。实验在以上合成数据集以及医学图像数据集上进行,实验结果如表2—表4所示。
表 2 FCM-MMD与TFCM-MMD聚类性能对比(AC)S1_1-T1_1 S1_2-T1_2 S2-T2_1 S2-T2_2 S2-T2_3 FCM-MMD 0.633 0.330 0.767 0.700 0.624 TFCM-MMD 0.767 0.767 0.747 0.744 0.739 CI* [0.6157, 0.9183] [0.6157, 0.9183] [0.7605, 0.7735] [0.7373, 0.7507] [0.7323, 0.7457] *最后一行是最佳方法的95%置信区间 表 3 FCM-MMD与TFCM-MMD聚类性能对比(RI)S1_1-T1_1 S1_2-T1_2 S2-T2_1 S2-T2_2 S2-T2_3 FCM-MMD 0.639 0.310 0.694 0.660 0.611 TFCM-MMD 0.733 0.736 0.691 0.688 0.684 CI [0.5747, 0.8913] [0.5783, 0.8937] [0.6869, 0.7011] [0.6809, 0.6951] [0.6769, 0.6911] 表 4 FCM-MMD与TFCM-MMD聚类性能对比(DB)S1_1-T1_1 S1_2-T1_2 S2-T2_1 S2-T2_2 S2-T2_3 FCM-MMD 0.923 \ 0.473 0.530 0.558 TFCM-MMD 0.797 0.797 0.552 0.550 0.556 CI [0.6531, 0.9409] [0.6531, 0.9409] [0.4654, 0.4806] [0.5224, 0.5376] [0.5484, 0.5636] 由以上实验结果可以得到以下结论:
(1) 在大多数情况下,TFCM-MMD的聚类性能优于FCM-MMD。 5组实验中仅在第3组实验中FCM-MMD的聚类性能优于TFCM-MMD,考虑原因为在第3组实验中,源域与目标域的数据分布差异较小,而聚类算法的性能又很大程度上受到数据量的影响,一般来说数据越充足,聚类效果越好。FCM-MMD同时利用源域和目标域数据进行聚类,因此其在第3组实验中的聚类性能要略好于TFCM-MMD。
(2) 由第2组实验可以看出,当源域与目标域聚类数不一致时,FCM-MMD的聚类性能极差,而TFCM-MMD仍表现出良好的聚类性能,因此TFCM-MMD的应用范围相较于FCM-MMD更加广泛。
(3) 随着源域与目标域的数据分布差异不断扩大,将聚类中心作为迁移知识的TFCM-MMD抗负迁移能力强的特点逐渐显现。此时其聚类性能要优于将源域数据作为迁移知识的FCM-MMD。
4.4 参数分析
本节将研究模糊系数、学习率和终止阈值对算法性能的影响,实验在合成数据集S1_1-T1_1上进行。
(1) 模糊系数。固定λ=0.5 (TFCM-MMD在T1_1获得最好聚类性能对应的λ),nmax=100,
\varepsilon = 0.001 。设m = {m_1} = {m_2} ,聚类性能(以AC为例)随m 的变化趋势如图8所示。由图8可以看出,模糊系数影响着算法的聚类性能,在实际应用中可以固定其他参数,通过采用网格搜索的方法确定合适的模糊系数。(2) 学习率。固定
{m_1} = {m_2} = 2 , λ=0.5, nmax=100,\varepsilon = 0.001 。得到聚类性能随η的变化趋势如图9所示。由图9可以看出,一方面学习率小能保证算法收敛,但学习率设置过小会导致算法收敛速度很慢,使得算法运行时间增加。另一方面学习率设置过大会导致算法发散,导致聚类性能变差。(3) 终止阈值。固定
{m_1} = {m_2} = 2 , λ=0.5, nmax=100。得到聚类性能随\varepsilon 的变化趋势如图10所示。由图10可以看出,当阈值设置过大,算法性能变差,原因是目标函数还未收敛到最优值就达到了停止条件。阈值设置过小,算法运行的时间变长,同时还可能出现目标函数无法收敛的情况。5. 结束语
针对迁移聚类问题,本文提出一种基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD。基于最大平均差异准则,TFCM-MMD通过学习源域和目标域的投影矩阵,减小了源域和目标域数据在公共子空间的分布差异,进而提升了迁移学习的效果,解决了迁移模糊C均值聚类算法在源域与目标域分布差异大的情况下迁移学习效果减弱的问题。最后实验也进一步验证了TFCM-MMD算法对解决域间差异大的迁移聚类问题的有效性。虽然本文提出的算法一定程度上提高了在域间差异大的情况下迁移聚类的效果,但算法仍存在一些需要改进的地方。如由于投影矩阵H的随机初始化,算法的聚类性能不稳定,因此如何提高算法的稳定性将是未来的一个研究方向。
-
表 1 本文模型与现有的部分代表性忆阻模型的比较
-
[1] CHUA L. Memristor-the missing circuit element[J]. IEEE Transactions on Circuit Theory, 1971, 18(5): 507–519. doi: 10.1109/TCT.1971.1083337 [2] STRUKOV D B, SNIDER G S, STEWART D R, et al. The missing memristor found[J]. Nature, 2008, 453(7191): 80–83. doi: 10.1038/nature06932 [3] WANG Leimin, ZENG Zhigang, and GE Mingfeng. A disturbance rejection framework for finite-time and fixed-time stabilization of delayed memristive neural networks[J]. IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2021, 51(2): 905–915. doi: 10.1109/TSMC.2018.2888867 [4] GUO Mei, ZHU Yongliang, LIU Renyuan, et al. An associative memory circuit based on physical memristors[J]. Neurocomputing, 2022, 472: 12–23. doi: 10.1016/j.neucom.2021.11.034 [5] LAI Qiang, WAN Zhiqiang, ZHANG Hui, et al. Design and analysis of multiscroll memristive Hopfield neural network with adjustable memductance and application to image encryption[J]. IEEE Transactions on Neural Networks and Learning Systems, To be published. [6] ZHANG Yang, WANG Xiaoping, LI Yi, et al. Memristive model for synaptic circuits[J]. IEEE Transactions on Circuits and Systems II:Express Briefs, 2017, 64(7): 767–771. doi: 10.1109/TCSII.2016.2605069 [7] CHANG Ting, JO S H, and LU Wei. Short-term memory to long-term memory transition in a nanoscale memristor[J]. ACS Nano, 2011, 5(9): 7669–7676. doi: 10.1021/nn202983n [8] 王春华, 蔺海荣, 孙晶如, 等. 基于忆阻器的混沌、存储器及神经网络电路研究进展[J]. 电子与信息学报, 2020, 42(4): 795–810. doi: 10.11999/JEIT190821WANG Chunhua, LIN Hairong, SUN Jingru, et al. Research progress on chaos, memory and neural network circuits based on memristor[J]. Journal of Electronics &Information Technology, 2020, 42(4): 795–810. doi: 10.11999/JEIT190821 [9] 李志军, 谭茂林, 王梦蛟, 等. 具有艾宾浩斯遗忘规则的忆阻联想记忆电路[J]. 电子与信息学报, 2022, 44(10): 3657–3665. doi: 10.11999/JEIT210677LI Zhijun, TAN Maolin, WANG Mengjiao, et al. Associative memory circuit based on memristor with the ebbinghaus forgetting rule[J]. Journal of Electronics &Information Technology, 2022, 44(10): 3657–3665. doi: 10.11999/JEIT210677 [10] HU S G, LIU Y, LIU Z, et al. Associative memory realized by a reconfigurable memristive hopfield neural network[J]. Nature Communications, 2015, 6: 7522. doi: 10.1038/ncomms8522 [11] LI Haoyu, WANG Leimin, and LAI Qiang. Synchronization of a memristor chaotic system and image encryption[J]. International Journal of Bifurcation and Chaos, 2021, 31(16): 2150251. doi: 10.1142/S0218127421502515 [12] 董哲康, 钱智凯, 周广东, 等. 基于忆阻的全功能巴甫洛夫联想记忆电路的设计、实现与分析[J]. 电子与信息学报, 2022, 44(6): 2080–2092. doi: 10.11999/JEIT210376DONG Zhekang, QIAN Zhikai, ZHOU Guangdong, et al. Memory circuit design, implementation and analysis based on memristor full-function Pavlov associative[J]. Journal of Electronics &Information Technology, 2022, 44(6): 2080–2092. doi: 10.11999/JEIT210376 [13] HOPFIELD J J. Neural networks and physical systems with emergent collective computational abilities[J]. Proceedings of the National Academy of Sciences of Sciences of the United States of America, 1982, 79(8): 2554–2558. doi: 10.1073/pnas.79.8.2554 [14] HOPFIELD J J. Neurons with graded response have collective computational properties like those of two-state neurons[J]. Proceedings of the National Academy of Sciences of the United States of America, 1984, 81(10): 3088–3092. doi: 10.1073/pnas.81.10.3088 [15] GUO Tengteng, WANG Lidan, ZHOU Mengzhe, et al. A recurrent neural network based on memristive activation function and its associative memory[J]. Scientia Sinica Informationis, 2017, 47(9): 1226–1241. doi: 10.1360/N112016-00266 [16] TARKOV M S. Hopfield network with interneuronal connections based on memristor bridges[C]. The 13th International Symposium on Neural Networks. St. Petersburg, Russia: Springer, 2016: 196–203. [17] YANG Jiu, WANG Lidan, WANG Yan, et al. A novel memristive Hopfield neural network with application in associative memory[J]. Neurocomputing, 2017, 227: 142–148. doi: 10.1016/j.neucom.2016.07.065 [18] HONG Qinghui, YAN Renao, WANG Chunhua, et al. Memristive circuit implementation of biological nonassociative learning mechanism and its applications[J]. IEEE Transactions on Biomedical Circuits and Systems, 2020, 14(5): 1036–1050. doi: 10.1109/TBCAS.2020.3018777 [19] CHEN Chengjie, CHEN Jingqi, BAO Han, et al. Coexisting multi-stable patterns in memristor synapse-coupled Hopfield neural network with two neurons[J]. Nonlinear Dynamics, 2019, 95(4): 3385–3399. doi: 10.1007/s11071-019-04762-8 [20] SUN Junwei, XIAO Xiao, YANG Qinfei, et al. Memristor-based Hopfield network circuit for recognition and sequencing application[J]. AEU-International Journal of Electronics and Communications, 2021, 134: 153698. doi: 10.1016/j.aeue.2021.153698 [21] WANG Leimin and ZOU Huayu. A new emotion model of associative memory neural network based on memristor[J]. Neurocomputing, 2020, 410: 83–92. doi: 10.1016/j.neucom.2020.05.002 [22] HONG Qinghui, CHEN Hegan, SUN Jingru, et al. Memristive circuit implementation of a self-repairing network based on biological astrocytes in robot application[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(5): 2106–2120. doi: 10.1109/TNNLS.2020.3041624 [23] HONG Qinghui, SHI Zirui, SUN Jingru, et al. Memristive self-learning logic circuit with application to encoder and decoder[J]. Neural Computing and Applications, 2021, 33(10): 4901–4913. doi: 10.1007/s00521-020-05281-z [24] YAN Renao, HONG Qinghui, WANG Chunhua, et al. Multilayer memristive neural network circuit based on online learning for license plate detection[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(9): 3000–3011. doi: 10.1109/TCAD.2021.3121347 [25] JOGLEKAR Y N and WOLF S J. The elusive memristor: Properties of basic electrical circuits[J]. European Journal of Physics, 2009, 30(4): 661–675. doi: 10.1088/0143-0807/30/4/001 [26] BIOLEK Z, BIOLEK D, and BIOLKOVÁ V. SPICE model of memristor with nonlinear dopant drift[J]. Radioengineering, 2009, 18(2): 210–214. [27] KVATINSKY S, FRIEDMAN E G, KOLODNY A, et al. TEAM: Threshold adaptive memristor model[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2013, 60(1): 211–221. doi: 10.1109/TCSI.2012.2215714 [28] KVATINSKY S, RAMADAN M, FRIEDMAN E G, et al. VTEAM: A general model for voltage-controlled memristors[J]. IEEE Transactions on Circuits and Systems II:Express Briefs, 2015, 62(8): 786–790. doi: 10.1109/TCSII.2015.2433536 期刊类型引用(0)
其他类型引用(2)
-