双向长短时记忆模型训练中的空间平滑正则化方法研究

李文洁; 葛凤培; 张鹏远; 颜永红

doi:10.11999/JEIT180314

双向长短时记忆模型训练中的空间平滑正则化方法研究

doi: 10.11999/JEIT180314

李文洁^{1, 2},
葛凤培^{1, 2},
张鹏远^{1, 2, ,},
颜永红^{1, 2, 3}

1.
中国科学院声学研究所语言声学与内容理解重点实验室北京 100190
2.
中国科学院大学北京 100049
3.
中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室乌鲁木齐 830011

基金项目: 国家重点研发计划重点专项(2016YFB0801203, 2016YFB0801200)，国家自然科学基金(11590770-4, U1536117, 11504406, 11461141004)，新疆维吾尔自治区科技重大专项(2016A03007-1)

详细信息

作者简介:
李文洁：女，1993年生，博士生，研究方向为语音信号处理、语音识别、声学模型、远场语音识别等

葛凤培：女，1982年生，副研究员，研究方向为语音识别、发音质量评估、声学建模及自适应等

张鹏远：男，1978年生，研究员，硕士生导师，研究方向为大词表非特定人连续语音识别、关键词检索、声学模型、鲁棒语音识别等

颜永红：男，1967年生，研究员，博士生导师，研究方向为语音信号处理、语音识别、口语系统及多模系统、人机界面技术等

通讯作者:
张鹏远　pzhang@hccl.ioa.ac.cn

中图分类号: TN912.34
计量
- 文章访问数: 2554
- HTML全文浏览量: 654
- PDF下载量: 78
- 被引次数: 3
出版历程
- 收稿日期: 2018-04-03
- 修回日期: 2018-11-22
- 网络出版日期: 2018-12-03
- 刊出日期: 2019-03-01

Spatial Smoothing Regularization for Bi-direction Long Short-term Memory Model

Wenjie LI^{1, 2},
Fengpei GE^{1, 2},
Pengyuan ZHANG^{1, 2
, ,},
Yonghong YAN^{1, 2, 3}

1.
Key Laboratory of Speech Acoustics and Content Understanding, Institute of Acoustics, Chinese Acadamy of Sciences, Beijing 100190, China
2.
University of Chinese Academy of Sciences, Beijing 100049, China
3.
Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China

Funds: The National Key Research and Development Plan (2016YFB0801203, 2016YFB0801200), The National Natural Science Foundation of China (11590770-4, U1536117, 11504406, 11461141004), The Key Science and Technology Project of the Xinjiang Uygur Autonomous Region (2016A03007-1)

摘要

摘要:
双向长短时记忆模型(BLSTM)由于其强大的时间序列建模能力，以及良好的训练稳定性，已经成为语音识别领域主流的声学模型结构。但是该模型结构拥有更大计算量以及参数数量，因此在神经网络训练的过程当中很容易过拟合，进而无法获得理想的识别效果。在实际应用中，通常会使用一些技巧来缓解过拟合问题，例如在待优化的目标函数中加入L2正则项就是常用的方法之一。该文提出一种空间平滑的方法，把BLSTM模型激活值的向量重组成一个2维图，通过滤波变换得到它的空间信息，并将平滑该空间信息作为辅助优化目标，与传统的损失函数一起，作为优化神经网络参数的学习准则。实验表明，在电话交谈语音识别任务上，这种方法相比于基线模型取得了相对4%的词错误率(WER)下降。进一步探索了L2范数正则技术和空间平滑方法的互补性，实验结果表明，同时应用这2种算法，能够取得相对8.6%的WER下降。
- 语音信号处理 /
- 空间平滑 /
- 双向长短时记忆模型(LSTM) /
- 正则化 /
- 过拟合
Abstract:
Bi-direction Long Short-Term Memory (BLSTM) model is widely used in large scale acoustic modeling recently. It is superior to many other neural networks on performance and stability. The reason may be that the BLSTM model gets complicated structure and computation with cell and gates, taking more context and time dependence into account during training. However, one of the biggest problem of BLSTM is overfitting, there are some common ways to get over it, for example, multitask learning, L2 model regularization. A method of spatial smoothing is proposed on BLSTM model to relieve the overfitting problem. First, the activations on the hidden layer are reorganized to a 2-D grid, then a filter transform is used to induce smoothness over the grid, finally adding the smooth information to the objective function, to train a BLSTM network. Experiment results show that the proposed spatial smoothing way achieves 4% relative reduction on Word Error Ratio (WER), when adding the L2 norm to model, which can lower the relative WER by 8.6% jointly.
- Speech signal processing /
- Spatial smoothing /
- Long Short-Term Memory (LSTM) /
- Regularization /
- Overfitting

HTML全文

1. 引言

数字通信是利用数字信号进行信息传输的通信方式，通信结果的客观分析涉及综合评估。但不同的工程问题综合评估的方法多种多样，其中包含：王月等人^[1]通过完整的指标体系搭建利用灰色关联和模糊综合评判等方法对全球导航卫星系统欺骗问题进行了效能评估；周治国等人^[2]面向多层次异构卫星系统采用单因素模糊向量和离差最大化组合赋权对系统的健康状态进行了评估；宿晨庚等人^[3]从频率特性等角度形成了面向新型调制方式和多频多分量复用信号的量化评估方法。

在干扰效能评估中，合适的评估方法需要满足快速的响应处理、高效的数据容纳、持续的模型迭代。综上所述，利用机器学习进行干扰效能评估往往具有准确的评估结果^[4]。机器学习通过通信系统的特征和属性构建一个模型，用来预测系统受到干扰的程度。因为通信系统存在的指标繁杂，且参数与评估结果存在正相关，所以采用支持向量机(Support Vector Machine, SVM)更适合对小样本、多指标的数据集进行处理^[5]。

尽管支持向量机已经可以对存在数据集的样本进行分类，但仍然存在参数优化和数据集缺失问题。面对支持向量机形成的复杂模型结构，需要通过调整算法参数值寻找最优的配置以提高性能。具有分步式并行和全局搜索能力的蚁群优化算法(Ant Colony Optimization, ACO)常被用于复杂问题的参数优化^[6]。部分通信系统因为服务的特殊性存在样本数量稀疏的问题。利用迁移学习(Transfer Learning, TL)将不同通信系统的评估结果进行处理转移，可以改善目标任务的学习能力^[7]。

本文主要的研究工作如下。首先，根据优劣解距离(Technique for Order Preference by Similarity to Ideal Solution, TOPSIS)对数字通信系统进行评估，并将评估结果和指标参数构建训练集和测试集。其次，根据其他通信系统的评估指标和评估结果构建迁移学习样本，并利用相关对齐(Correlation Alignment, CORAL)的方法进行指标映射^[8]。再次，对支持向量机进行参数优化，本文采取的方法分别是蚁群优化算法和网格搜索算法(Grid Search, GS)^[9]。并对蚁群优化算法收敛速度过快的问题进行了改进^[10]。最后将参数优化和迁移学习进行融合，同时带入通信系统指标参数生成的模型，得到评估结果。

2. 评估模型与问题分析

图1为基于通信指标的综合评估流程图，其中包含指标参数模块、综合评估模块、结果化简模块。

图 1 基于通信指标的综合评估流程图

下载: 全尺寸图片幻灯片

2.1 指标参数

指标参数在评估中有助于提供客观、可量化的数据，以便评估数字通信系统的干扰效能。选择适当的指标是评估的关键步骤，依据穿透式指标选取方法选取不同模块的系统参数。模块分为解调模块、解跳模块、解扩模块、解码模块。其中参数为幅度偏移、频率偏移、相位偏移等^[11]。具体模块与指标的对应关系如图2所示。

图 2 基于穿透式的指标选取结果

下载: 全尺寸图片幻灯片

2.2 综合评估

评估结果是通过指标参数进行综合评估得到的。综合评估的过程为权重获取和评估方法，权重选取分熵权法、层次分析法、博弈论；评估方法为TOPSIS。

熵权法(EWM)是计算客观权重的一种方法。EWM基于指标中参数分布规律，即分布熵越高，权重越大^[12]。熵权指标权重 ${W_{{\mathrm{e}},l}}$ 为

${W_{{\mathrm{e}},l}} = \frac{{1 - E_l^{}}}{{{n_{\mathrm{t}}} - \displaystyle\sum\limits_{g = 1}^{{n_{\mathrm{t}}}} {E_l^{}} }}$

(1)

其中，下角标 $l$ 为指标， ${\mathrm{e}}$ 表示熵权法。 $E$ 为信息熵， ${n_{\mathrm{t}}}$ 为指标个数。

层次分析法(AHP)是计算主观权重的一种方法。AHP通过专家先验知识产生判断矩阵，使指标的重要程度与工程经验相关^[13]。层次分析指标权重 ${W_{{\mathrm{a}},l}}$ 为

${W_{{\mathrm{a}},l}} = \frac{{\displaystyle\sum\limits_{j = 1}^n {{{\boldsymbol{M}}_{m \times n}}} }}{{\displaystyle\sum\limits_{j = 1}^n {\displaystyle\sum\limits_{i = 1}^m {{{\boldsymbol{M}}_{m \times n}}} } }}$

(2)

其中，下角标 ${\mathrm{a}}$ 表示层次分析法。 ${\boldsymbol{M}}$ 为经过列和处理后的判断矩阵， $m,n$ 为矩阵长度。

博弈论(GT)是组合主客观权重的一种方法。GT基于激励结构的相互作用研究优化策略^[14]。博弈论平衡时条件如下：

$\min ||{\beta _{\mathrm{a}}}{\boldsymbol{W}}_{\mathrm{a}}^{\text{T}} + {\beta _{\mathrm{e}}}{\boldsymbol{W}}_{\mathrm{e}}^{\text{T}} - {\boldsymbol{W}}_q^{\text{T}}|{|^2},q = {\mathrm{a}},{\mathrm{e}}$

(3)

其中， ${{\boldsymbol{W}}_{\mathrm{a}}} = [{{{W}}_{{\mathrm{a}},l}}],{{\boldsymbol{W}}_{\mathrm{e}}} = [{{{W}}_{{\mathrm{e}},l}}](l = 1,2,\cdots,k)$ 为主客观权重构成的矩阵， $k$ 为指标个数。 ${\beta _{}}$ 为权衡主客观权重的参数， ${\boldsymbol{W}}$ 为权重组合结果。权重组合公式为 ${\boldsymbol{W}}{\text{ = }}{\beta _{\mathrm{a}}}{\boldsymbol{W}}_{\mathrm{a}}^{\text{T}} + {\beta _{\mathrm{e}}}{\boldsymbol{W}}_{\mathrm{e}}^{\text{T}}$ 。

TOPSIS是利用权重和参数产生最终评估结果的一种方法。利用原始数据信息反映各评价方法的差距^[15]。公式如下

${H_o} = \frac{{D_o^ - }}{{D_o^ - + D_o^ + }},o = 1,2,\cdots,{n_o}$

(4)

其中，下角标 $o$ 为评估对象， $D$ 表示与极值方案的距离， $+ -$ 号表示最优解和最劣解。

根据上述评估流程，当系统中存在干扰时，部分评估参数发生改变。通过综合评估方法得到最终评估结果。评估结果在0～1之间，评估结果越接近1，干扰效果越明显。对评估结果进行如下化简

$S{\text{ = [}}v \times H{\text{]}}$

(5)

其中， $S$ 为化简后评估结果， ${{v}}$ 为等比例放大系数， $H$ 为评估结果。指标参数作为机器学习的输入，化简后评估结果作为分类标准。对评估结果进行取整运算。在构建的参数模型中选取部分对支持向量机进行训练、测量。

2.3 问题分析

将上文的评估指标和评估结果整合成的数据集训练支持向量机。生成的支持向量机模型可以对拥有评估指标参数的通信系统进行初步的评估^[16]。此时产生的模型称为SVM模型。但为了提高通信评估模型的系统性能引入迁移学习和参数优化。

根据机器学习的基本原则，好的训练模型对应全面的样本量。由于通信环境的特殊部分通信系统难以进行详尽的指标参数测量，导致样本数量稀疏、标记样本不足、误分代价不平衡等问题^[17]。但不同的通信系统都是由调制解调、跳时跳频、信道编码等模块构成的。利用迁移学习对其他通信系统的指标参数进行映射，可以充分利用已有的资源。其他通信系统数据集引入的模型称为TL-SVM模型。

参数优化通过遍历预定义区间来寻找最优的参数组合。支持向量机的性能受到核参数和惩罚因子的影响^[18]。核参数决定了核函数的形状和尺度。通过选择适当的核参数，可以提高蚁群算法在解空间中的搜索速度和准确性，以获得更优的解。惩罚因子在蚁群优化算法中用于惩罚违反约束条件的解。通过引入额外的惩罚项或增加与约束相关的权重，可以确保所得到的解满足问题的约束。惩罚因子的大小决定了约束对优化过程的影响程度，较大的惩罚因子限制搜索的空间越小，较小的惩罚因子则更容易接受违反约束的解。对目前存在的数据集进行蚁群优化后的模型称为ACO-TL-SVM模型^[19]。

3. 本文算法

基于迁移学习和参数优化的干扰效能评估流程如图3所示，本文提出的算法由3个模块组成，其中包含基于数据增强和相关对齐的迁移学习模块、基于启发函数改进蚁群算法的参数优化模块、基于支持向量机与通信指标的参数映射模块。迁移学习模块为参数优化模块提供更加完整的数据集，参数优化模块为参数映射模块提供更加符合评估模型的系统参数。

图 3 基于迁移学习和参数优化的干扰效能评估流程图

下载: 全尺寸图片幻灯片

迁移学习模块通过引入通信系统2来解决通信系统1在受到干扰时样本量稀疏的问题。为了成功应用迁移学习，通信系统2需要具有与通信系统1相似的系统结构、受干扰情况和数据分布。相关对齐方法可用于实现数据集分布的相似性。此外，依据评估指标和评估结果之间的强相关性，采用数据增强方法可以提高迁移后评估模型的准确性。

参数优化模块提高模型的准确性、鲁棒性和泛化能力，但不同的参数优化收敛时间不同、全局搜索能力不同。以蚁群优化算法为例，传统的蚁群优化算法启发函数不能随模型的生成进行调整，将迭代次数带入算法过程可以提高找到最优解的概率。

参数映射模块拟合通信指标和评估结果之间的联系，但不同的机器学习对问题的适应程度不同，通信指标和评估结果间的分类准则不同。根据TOPSIS方法中指标参数和分类结果的强正相关性，基于支持向量机的分类方式适合模拟指标参数和评估结果的映射。

3.1 基于数据增强和相关对齐的迁移学习

通信系统的参数随电磁环境发生变化可以进行迁移的数据稀疏。在进行迁移学习之前可以通过数据增强，增加参考通信系统的样本量。本文选用的数据增强方法是mixup^[20]。

当通信参数处于两者之间时，评估结果通常呈现中间的趋势。这类似于mixup的基本原理，即合并两个样本-标签数据对可通过按比例相加生成新的数据对。公式如下：

$\tilde {\boldsymbol{a}} = \lambda {{\boldsymbol{a}}_i} + (1 - \lambda ){{\boldsymbol{a}}_j}$

(6)

$\tilde {\boldsymbol{b}} = [\lambda {{\boldsymbol{b}}_i} + (1 - \lambda ){{\boldsymbol{b}}_j}]$

(7)

其中， ${\boldsymbol{a}}$ 和 ${\boldsymbol{ b}}$ 分别表示样本向量和标签向量， $i$ 和 $j$ 表示不同数据。 $\lambda \in [0,1]$ 是概率， $\lambda {\text{～}}{\rm{Beta}}({\mathrm{e}},{\mathrm{e}})$ ，即 $\lambda$ 服从参数都为 ${\mathrm{e}}$ 的Beta分布。因为通信评估结果为整数，需进行取正运算。

迁移学习通过知识迁移、特征迁移、参数迁移等方式提高样本数量不足时支持向量机的准确度。本文用CORAL迁移学习算法对不同的通信系统进行映射。

CORAL的基本原理是通过最大化源域与目标域之间的相关性，增强特征空间的相似分布程度，从而减少两域之间的距离。

该算法需要包含不同通信系统之间的数据集。将通信系统2的指标参数和评估结果迁移到通信系统1中，通信系统2被称为源域 ${{\boldsymbol{D}}_{\mathrm{S}}}$ ，通信系统1被称为目标域 ${{\boldsymbol{D}}_{\mathrm{T}}}$ 。根据上述内容，可求出特征向量的均值和协方差矩阵分别为 $u_{\mathrm{s}},u_{\mathrm{t}},\boldsymbol{C}_{\mathrm{S}}^{ },\boldsymbol{C}_{\mathrm{T}}$ 。协方差矩阵 $\boldsymbol{C}_{\mathrm{S}}^{ },\boldsymbol{C}_{\mathrm{T}}$ 对应的秩为 ${r_{\mathrm{s}}},{r_{\mathrm{t}}}$ 。通过线性变换矩阵 ${\boldsymbol{A}}$ 对 ${\boldsymbol{C}}_{\mathrm{S}}^{}$ 做变换，且要保证变换后 ${\boldsymbol{C}}_{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\mathrm{s}}} {\mathrm{S}}}^{}$ 与 ${{\boldsymbol{C}}_{\mathrm{T}}}$ 的欧氏距离最小。公式为

$\mathop {\min }\limits_{\boldsymbol{A}} ||{{\boldsymbol{C}}_{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\mathrm{s}}} }} - {{\boldsymbol{C}}_{\mathrm{T}}}||_{\rm{F}}^2 = \mathop {\min }\limits_{\boldsymbol{A}} ||{{\boldsymbol{A}}^{\text{T}}}{{\boldsymbol{C}}_{\mathrm{s}}}{\boldsymbol{A}} - {{\boldsymbol{C}}_{\mathrm{T}}}||_{\rm{F}}^2$

(8)

增强了不同通信系统的参数特征的相似性，经过推导， ${\boldsymbol{A}}$ 的最优解为

${{\boldsymbol{A}}^*} = ({{\boldsymbol{U}}_{\mathrm{S}}}{\boldsymbol{\varSigma}} _{\mathrm{S}}^{ + \frac{1}{2}}{\boldsymbol{U}}_{\mathrm{S}}^{\rm{T}})({{\boldsymbol{U}}_{{\mathrm{T}}[1:r]}}{\boldsymbol{\varSigma}} _{{\mathrm{T}}[1:r]}^{\frac{1}{2}}{\boldsymbol{U}}_{{\mathrm{T}}[1:r]}^{\rm{T}})$

(9)

其中， $r = \min ({r_{\mathrm{s}}},{r_{\mathrm{t}}})$ , ${\boldsymbol{\varSigma}}$ 和 ${{\boldsymbol{\varSigma}} ^ + }$ 为摩尔-彭斯广义逆矩阵， ${{\boldsymbol{U}}_{\mathrm{S}}},\;{{\boldsymbol{U}}_{\mathrm{T}}}$ 分别为 ${\boldsymbol{C}}_{\mathrm{S}}^{},\;{{\boldsymbol{C}}_{\mathrm{T}}}$ 的奇异值分解，即

${{\boldsymbol{C}}_{\mathrm{s}}} = {{\boldsymbol{U}}_{\mathrm{S}}}{\boldsymbol{\varSigma}} _{\mathrm{S}}^{}{\boldsymbol{U}}_{\mathrm{S}}^{\rm{T}},{{\boldsymbol{C}}_{\mathrm{T}}} = {{\boldsymbol{U}}_{\mathrm{T}}}{\boldsymbol{\varSigma}} _{\mathrm{T}}^{}{\boldsymbol{U}}_{\mathrm{T}}^{\rm{T}}$

(10)

${{\boldsymbol{A}}^*}$ 代表 ${\boldsymbol{A}}$ 的最佳解，经过上述映射后源域数据 ${\boldsymbol{D}}_{\mathrm{S}}^*$ 为

${\boldsymbol{D}}_{\mathrm{S}}^* = {{\boldsymbol{D}}_{\mathrm{S}}} \times {\boldsymbol{C}}_{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\mathrm{S}}} }^{ - \frac{1}{2}} \times {\boldsymbol{C}}_{\mathrm{T}}^{\frac{1}{2}}$

(11)

经过映射后 ${\boldsymbol{D}}_{\mathrm{S}}^*$ 数据集即可通过训练作用于支持向量机以提高系统的准确率。

3.2 基于启发函数改进蚁群算法的参数优化

参数优化算法种类繁多，包括：蚁群优化算法、粒子群优化算法^[21]、鲸鱼优化算法^[22]、网格优化算法。蚁群算法相对于其他启发式算法具有鲁棒性和搜索能力强的优点。

根据自然界蚂蚁觅食行为得到的蚁群优化算法，由两部分构成，分别是启发函数和信息素更新。蚂蚁寻找食物的过程会受到自身位置和其他蚂蚁留下信息素的引导。在大量蚂蚁不断的重复选择中构成正反馈路径。

蚂蚁在觅食过程中通常倾向于在相对蚁穴更近的区域内寻找食物。因此启发函数是根据当前蚂蚁位置决定不同方向的移动的概率。 $\delta$ 为启发函数公式如下：

${\delta _{g,h}} = \frac{1}{{{d_{g,h}}}}$

(12)

其中， $d$ 为两个转移节点的欧氏距离。下标 $g,h$ 表示从位置 $g$ 移动到位置 $h$ ，节点间的欧氏距离如下

${d_{g,h}} = \sqrt {{{({x_g} - {x_h})}^2} + {{({y_g} - {y_h})}^2}}$

(13)

其中， $x$ , $y$ 对应位置的坐标，在SVM里为惩罚因子和核参数。当 ${d_{g,g}} = 0$ 时， ${\delta _{g,g}} \to \infty$ ，若忽略 ${x_g} = {x_h}$ 和 ${y_g} = {y_h}$ 的情况，则优化算法运行到最后无法收敛。默认 ${\delta _{g,g}} = c$ ， $c$ 为常数。将启发函数稍加改进，公式如下

${\eta _{g,h}} = \frac{{{\delta _{g,h}}}}{{\displaystyle\sum\limits_\upsilon {{\delta _{g,h}}} }}$

(14)

其中 $\upsilon$ 为所有路径。蚂蚁在探索和运送食物的过程中会留下信息素方便以后的蚂蚁寻找。因此蚂蚁完成迭代后会进行信息素的更新，公式如下

${\tau _{g,h}}(t + 1) = (1 - \rho ){\tau _{g,h}}(t) + \vartriangle {\tau _{g,h}}$

(15)

其中， $t$ 为迭代次数， $\tau$ 为路径上的信息素， $\vartriangle \tau$ 为信息素的增加量， $\rho$ 为信息素挥发因子。信息素会随迭代次数的增多而挥发，会因蚂蚁的重复路过而增加，公式为

$\vartriangle {\tau _{g,h}} = \sum\limits_{k = 1}^m {\vartriangle \tau _{g,h}^k}$

(16)

其中， $k$ 代表蚂蚁， $m$ 代表经过此路径的蚂蚁数。单个蚂蚁产生的信息增量，公式为

$\vartriangle \tau _{g,h}^k = \frac{Q}{{{L_k}}}$

(17)

其中， $Q$ 为增加的信息素总量为常数， $L$ 为蚂蚁走的长度。由式(17)可知路径长度和信息素总量呈负相关，根据上述思想依据训练后SVM的准确率对信息素总量进行划分，即

$\vartriangle \tau _{g,h}^k = Q\frac{{{P_{g,h,k}}}}{{\displaystyle\sum\limits_{k = 1}^{{n_{\mathrm{a}}}} {{P_{g,h,k}}} }}$

(18)

其中， ${P_{g,h,k}}$ 为基于 $g$ , $h$ 参数的准确率， ${n_{\mathrm{a}}}$ 为蚂蚁数量。

启发函数和信息素产生转移位置的概率。前进方向的概率基于轮盘赌规则产生，概率公式为

$p_{g,h}^k{\text{ = }}\left\{ {\begin{array}{*{20}{c}} {\frac{{T_{g,h}^\alpha \eta _{g,h}^\beta }}{{\displaystyle\sum\limits_{s \in {{\rm{allowed}}_k}} {T_{g,h}^\alpha \eta _{g,h}^\beta } }},h \in {{\rm{allowed}}_k}} \\ {0,h \notin {{\rm{allowed}}_k}} \end{array}} \right.$

(19)

其中 ${{\rm{allowed}}_k}$ 为蚂蚁当前可移动的位置， $\alpha$ 为信息素因子，控制信息素所占比重， $\beta$ 为启发因子，控制当前节点和位移节点的位置关系。综上所述，蚁群算法的每一次迭代都是基于目前最优解、蚂蚁所在位置、信息残留浓度的一次权衡，在满足迭代次数后输出最优路线。

但蚁群算法仍存在容易陷入局部最优解的问题。该问题的产生在于启发函数、信息素更新和参数 $\alpha$ 和 $\beta$ 。启发函数的构造形式与搜索能力相关。考虑将迭代次数作为变量替代蚁群优化算法的启发函数中 $c$ 常量，以增强全局搜索能力从而解决局部最优解的问题，公式如下

$c = \frac{{{n_i}}}{N}\times {d_m}$

(20)

其中， $N$ 为总迭代次数， ${n_i}$ 为当前迭代次数， ${d_m}$ 为转移距离常数。经过启发函数改进后的蚁群优化算法称为(Heuristic-function Ant colony optimization, HA)。联合迁移学习与支持向量机所构成的训练模型为HA-TL-SVM。

3.3 基于支持向量机与通信指标的参数映射

迁移学习和参数优化的对象为支持向量机，主要解决通信评估的效能分类问题，其核心思想是找到一个最优的超平面或者曲面来将不同通信指标参数的样本点按评估结果划分，此过程从数学角度描述为：对给定的通信系统集 $({z_i},{H_i}),i = 1,2,\cdots,N$ ，其中 ${z_i}$ 表示输入的指标参量； ${\boldsymbol{H}}$ 表示对应的评估结果； ${\boldsymbol{H}} = f({\boldsymbol{z}})$ 为估计输出量，用来拟合TOPSIS评估过程，被估计函数具体可表述为

${\boldsymbol{H}} = {{\boldsymbol{\omega}} ^{\rm{T}}}\phi ({\boldsymbol{x}}) + {\boldsymbol{o}}$

(21)

其中， $\phi$ $({\boldsymbol{x}})$ 为指标参数到评估结果域的非线性映射； ${{\boldsymbol{\omega}} ^{\rm{T}}}$ 为基于指标参数的权重向量， ${\boldsymbol{o}}$ 为偏置常数。而面对化简后的评估结果，回归过程是为了寻找使评估风险函数最小化的系数 ${{\boldsymbol{\omega}} ^{\rm{T}}}$ 和 ${\boldsymbol{o}}$ 。评估风险函数为

${R_{{\rm{reg}}}}(f) = C\sum\limits_{i = 1}^l \varGamma (f({z_i}) - {H_i}) + \frac{1}{2}{\left\| {\boldsymbol{\omega}} \right\|^2}$

(22)

其中， $\varGamma$ 是效能评估损失； $C$ 表示该损失导致的惩罚度。本文采取了不敏感损失函数，公式为

${L^\varepsilon }({\boldsymbol{z}},{\boldsymbol{H}},f) = {\left| {{\boldsymbol{H}} - f({\boldsymbol{z}})} \right|_{^\varepsilon }}$

(23)

其中， ${L^\varepsilon }$ 表示当TOPSIS结果和预测评估结果之间的差别 $< \varepsilon$ 时，损失可忽略。

支持向量机解决干扰效能评估问题时，是在 ${n_t}$ 维通信指标空间中，使用损失函数求解线性回归方程。并且需要考虑 ${\left\| {\boldsymbol{\omega}} \right\|^2}$ 的最小化以保证拟合的一般性。公式可以转化为下述的参数优化问题

$\mathop {\min }\limits_{{\boldsymbol{\omega}} ,{\boldsymbol{o}},{\xi _i},\xi _i^*} \frac{1}{2}{\left\| {\boldsymbol{\omega}} \right\|^2} + C\sum\limits_{i = 1}^l {({\xi _i} + \xi _i^*)}$

(24)

其中， $\xi$ 和 ${\xi ^*}$ 分别代表在误差 $\varepsilon$ 约束下目标值上下限的松弛变量通过拉格朗日优化方法可以推得此问题的对偶问题。公式改写为

$f({\boldsymbol{x}}) = \sum {({a_i} - a_i^*)K({z_i},{\boldsymbol{z}})} + {\boldsymbol{o}}$

(25)

其中， ${a_i}$ , $a_i^*$ 分别为松弛变量 $\xi$ 和 ${\xi ^*}$ 对应的拉格朗日乘子， $K$ 表示满足Mercer条件的核函数，本文采用高斯核函数。

计算由式(25)获取的分类判决函数并联合数字通信系统得到观测者操作特性曲面。近而建立SVM模型得到干扰效能评估结果。在得到评估结果前，使用蚁群优化算法和迁移学习可提高结果准确性。

4. 仿真分析

该仿真旨在从支持向量机性能和干扰效能评估两个角度探讨本文算法的优势。实验前需将TOPSIS评估结果分成100类，并采取Link11为通信系统2，Link16为通信系统1的评估方式。通过对Link16系统数据集的分析，包括参数优化结果、模型准确率和模型运行时间等方面，发现改进后的支持向量机性能较为优越^[23]。通过对Link16系统干扰效能的分析，包括干扰种类、干扰频点个数、干扰时间和系统类型等方面，发现改进后的训练模型与传统评估结果相似，可用于认知通信评估。

4.1 基于改进算法的支持向量机性能分析

图4为不同机器学习算法下的干扰效能评估模型准确率。支持向量机采用高斯核函数，随机森林采用50个决策树，神经网络选取11个隐藏层。

图 4 干扰效能评估模型准确率

下载: 全尺寸图片幻灯片

训练集占比是指Link16数据集中用于训练评估模型的数据集占总数据集的比例。支持向量机总体的准确率最高。因为TOPSIS评估方法对权重和指标的应用更接近线性，而支持向量机通过利用核函数将数据映射到高维特征空间，并寻找一个最优超平面来实现分类任务。这一特性使得SVM能够更有效地捕捉数据中的线性关系。神经网络的结构堆叠多个卷积层和非线性激活函数来提取输入数据的特征。这种特性使得神经网络在干扰效能评估的领域上准确率偏低。

基于迁移学习的支持向量机模型参数寻优过程分为网格优化参数结果和蚁群优化参数结果。

是网格优化寻优结果3维图，图中的3维坐标分别对应着核参数 $g$ 、惩罚因子 $C$ 和准确率。

图 5 网格优化结果图

下载: 全尺寸图片幻灯片

从该图可以看出在 $C \in [1,40],g \in [1,40]$ 且步长为1网格划分下所有存在参数对应的准确率。最好的惩罚因子为3，最好的核函数为10。准确率随惩罚因子降低呈升高趋势，随核函数增大平稳。

图6为蚁群优化算法的准确率随迭代次数的变化曲线。纵坐标为支持向量机模型准确度，横坐标为迭代次数。

图 6 蚁群优化结果图

下载: 全尺寸图片幻灯片

传统的蚁群优化算法具有快速收敛的特性，容易陷入局部最优解。该模型中的ACO经过多次迭代后在模型的准确率仍维持在0.92左右，这是因为前10次迭代留下的信息素束缚住蚁群下一次运动轨迹。改进启发函数的蚁群优化算法HA在前10次迭代次数中准确率波动幅度大，容易探索到更适合支持向量机的参数集。且浮动程度随迭代次数的增加逐渐减小，这保证了参数集到迭代后期的收敛性。HA算法在准确率上效果更接近网格算法挑出的最优值。对比SVM模型、TL-SVM模型、HA-TL-SVM模型的评估准确度，如图7所示。

图 7 改进支持向量机准确率

下载: 全尺寸图片幻灯片

通过相关对齐和数据增强的处理，Link11数据集已经可应用于Link16干扰效能评估。为了提高评估模型的准确性，逐步增加Link16数据集中训练占比。当Link16训练数据量占Link16数据总量的比例小于0.6时，引入Link11数据链参数可以显著提高系统的准确性。但是，当这一占比增加到0.7或0.8时，Link11数据链参数所携带的与Link16数据链参数不相关的信息开始妨碍准确性的提升。同时，采用改进的蚁群优化算法，通过寻找合适的惩罚因子和核函数，进一步提高模型的准确性。SVM系统、TL-SVM系统和HA-TL-SVM系统的训练时间，如图8所示。

图 8 改进支持向量机训练时间

下载: 全尺寸图片幻灯片

Link11数据集的引进会增加系统训练时间，但随Link16数据集数量的增多差异逐渐减小。蚁群优化算法运行时间与数据集量成正相关，且引入蚁群优化算法会显著提高系统复杂度。

4.2 基于Link16的干扰效能评估结果分析

将噪声调频干扰、锯齿波调频干扰、多音干扰送入Link16数据链中。根据得到的系统参数分别进行综合评估和HA-TL-SVM模型评估，对比两者评估结果如图9所示。

图 9 不同干扰种类评估结果

下载: 全尺寸图片幻灯片

不论是哪种评估结果都随干扰功率的减少而降低，且均认为多音干扰比噪声调频干扰和锯齿波调频干扰的干扰效能更高。训练好的HA-TL-SVM模型与TOPSIS综合评估的结果基本一致。

针对3种干扰，图10比较了本文的评估方法和传统模糊评估方法的性能^[2]。

图 10 模糊评估与HA-TL-SVM评估结果

下载: 全尺寸图片幻灯片

首先，模糊评估相较HA-TL-SVM评估对干扰不敏感，图中体现为对同一种干扰模糊评估的评价结果低于HA-TL-SVM评估，因为HA-TL-SVM评估方法基于指标参数对评估结果的映射，突出了干扰对系统参数的影响。其次，模糊评估对3种干扰的区分程度小于HA-TL-SVM评估方法。因为隶属度函数的引入，分布相似的参数更难辨别。本文评估方法相较模糊评估于评估结果间的转变更为顺滑。

Link16实行跳频通信，通信频点共51个。多音干扰为梳状干扰。当不同通信频点受到总功率相同的梳状干扰时，产生的干扰效果不同。针对上述问题评估干扰17,34,51通信频点的干扰效能，如图11所示。

图 11 不同干扰频点个数评估结果

下载: 全尺寸图片幻灯片

两种评估方法的评估结果基本相同，均能从频点个数的角度区分同类型干扰。HA-TL-SVM相较于TOPSIS的评估结果浮动更大。

Link16系统传输信息具有跳时的特点，单次时隙内不同的干扰时间，产生的干扰效能不同。图12分别测试了全时段干扰，三分之一时段干扰，二分之一时段干扰的干扰效能。

图 12 不同干扰时间评估结果

下载: 全尺寸图片幻灯片

TOPSIS和HA-TL-SVM对不同干扰时间的干扰效能区分不明显。支持向量机甚至在多个信干比下无法区分二分之一时隙和三分之一时隙的区别。整体上看，两种评估方法有明显的相互偏离的趋势。

Link16和Link11均为数据链。两者均有完备的抗干扰模块，Link16数据链相较于Link11数据链系统构成更为复杂。当受到多音干扰时两系统受到的干扰效能不同，如图13所示。

图 13 不同通信系统评估结果

下载: 全尺寸图片幻灯片

因为Link11包含多频点通信、信道编码和调制解调，较Link16少扩频等抗干扰模块，两种评估结果均认为Link11受干扰影响更为严重。训练后的HA-TL-SVM对Link16的评估结果好于对Link11的评估结果。

5. 结束语

为了提高数字通信系统干扰效能评估的丰富度，本文提出了一种基于支持向量机和已有指标集对认知通信进行评估的模型，并对支持向量机进行了改进。本文采取Link16数据集和Link11数据集进行评估分析，从参数优化的角度，以网格优化算法结果作为参照，对比了不同启发函数在蚁群优化算法的作用；从支持向量机改进的角度，对比SVM模型、TL-SVM模型、HA-TL-SVM模型，发现加入迁移学习和蚁群优化的SVM模型的评估准确率最高。从通信系统和干扰类型的角度，讨论了支持向量机评估和传统综合评估结果的区别和联系。经过训练的评估模型在评估速度上表现更快、泛用性更强而在准确率方面的差异不大。后续的研究可以从数据集在训练初期带标签的样本量较少的问题入手，引入半监督学习从而提高模型自主学习能力。

图 1 LSTM网络的记忆单元

下载: 全尺寸图片幻灯片

图 2 将激活值的1维向量拼成2维网格

下载: 全尺寸图片幻灯片

图 3 模型结构图

下载: 全尺寸图片幻灯片

表 1 不同位置空间平滑的结果

空间平滑位置	空间平滑权重(c)	CallHm WER (%)	Swbd WER (%)	总计WER (%)
无	无	20.0	10.3	15.2
P1	0.0020	19.9	10.4	15.2
P1	0.0010	19.9	10.0	15.0
P1	0.0007	20.0	10.3	15.2
P2	0.0020	19.7	10.0	14.9
P2	0.0010	19.7	9.8	14.8
P2	0.0007	19.9	9.8	15.0
P3	0.0020	20.1	10.3	15.2
P3	0.0010	20.0	9.8	15.0
P3	0.0007	20.0	10.1	15.1
P4	0.0010	20.9	10.6	15.8
P4	0.0007	20.6	10.3	15.5
P4	0.0006	20.5	10.6	15.6

下载: 导出CSV

表 2 不同权重下的细胞状态值 ${{{c}}_t}$ 的空间平滑结果

空间平滑权重 (c)	CallHm WER (%)	Swbd WER (%)	总计WER (%)
无	20.0	10.3	15.2
0.0100	20.3	10.4	15.4
0.0010	19.7	9.8	14.8
0.0009	19.3	9.8	14.6
0.0008	19.6	9.7	14.7
0.0007	19.9	9.8	15.0

下载: 导出CSV

表 3 网络中添加L2正则后的结果

L2正则有/无	空间平滑有/无	CallHm WER (%)	Swbd WER (%)	总计WER (%)
无	无	20.0	10.3	15.2
无	有	19.3	9.8	14.6
有	无	19.0	9.5	14.3
有	有	18.5	9.3	13.9

下载: 导出CSV

参考文献(17)

LI X, and WU X. Constructing long short-term memory based deep recurrent neural networks for large vocabulary speech recognition[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015: 4520–4524. doi: 10.1109/ICASSP.2015.7178826.

CHEN K and HUO Q. Training deep bidirectional LSTM acoustic model for LVCSR by a context-sensitive-chunk BPTT approach[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) , 2016, 24(7): 1185–1193. doi: 10.1109/TASLP.2016.2539499

AXELROD S, GOEL V, Gopinath R, et al. Discriminative estimation of subspace constrained gaussian mixture models for speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 172–189. doi: 10.1109/TASL.2006.872617

POVEY D, KANEVSKY D, KINGSBURY B, et al. Boosted MMI for model and feature-space discriminative training[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Las Vegas, USA, 2008: 4057–4060. doi: 10.1109/ICASSP.2008.4518545.

POVEY D and KINGSBURY B. Evaluation of proposed modifications to MPE for large scale discriminative training[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Honolulu, USA, 2007: 321–324. doi: 10.1109/ICASSP.2007.366914.

HUANG Z, SINISCALCHI S M, and LEE C H. Hierarchical Bayesian combination of plug-in maximum a posteriori decoders in deep neural networks-based speech recognition and speaker adaptation[J]. Pattern Recognition Letters, 2017, 98(15): 1–7. doi: 10.1016/j.patrec.2017.08.001

POVEY D. Discriminative training for large vocabulary speech recognition[D].[Ph.D. dissertation], University of Cambridge, 2003.

ZHOU P, JIANG H, DAI L R, et al. State-clustering based multiple deep neural networks modeling approach for speech recognition[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) , 2015, 23(4): 631–642. doi: 10.1109/TASLP.2015.2392944

SRIVASTAVA N, HINTON G, KRIZHEYSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929–1958.

GOODFELLOW I, BENGIO Y, and COURVILLE A, Deep Learning[M], Cambridge, MA: MIT Press, 2016: 228–230.

POVEY D, PEDDINTI V, GALVEZ D, et al. Purely sequence-trained neural networks for ASR based on lattice-free MMI[C]. International Speech Communication Association (INTERSPEECH), San Francisco, USA, 2016: 2751–2755. doi: 10.21437/Interspeech.2016-595.

SAHRAEIAN R, and VAN D. Cross-entropy training of DNN ensemble acoustic models for low-resource ASR[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 1991–2001. doi: 10.1109/TASLP.2018.2851145

LIU P, LIU C, JIANG H, et al. A constrained line search optimization method for discriminative training of HMMs[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(5): 900–909. doi: 10.1109/TASL.2008.925882

WU C, KARANASOU P, GALES M J, et al. Stimulated deep neural network for speech recognition[C]. International Speech Communication Association (INTERSPEECH), San Francisco, USA, 2016: 400–404. doi: 10.21437/Interspeech.2016-580.

Wu C, CALES M J F, RAGNI A, et al. Improving interpretability and regularization in deep learning[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) , 2018, 26(2): 256–265. doi: 10.1109/TASLP.2017.2774919

KO T, PEDDINTI V, POVEY D, et al. Audio augmentation for speech recognition[C]. International Speech Communication Association (INTERSPEECH), Dresden, Germany, 2015: 3586–3589. doi: 10.21437/Interspeech.2015-571.

LAURENT C, PEREYRA G, BRAKEL P, et al. Batch normalized recurrent neural networks[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 2016: 2657–2661. doi: 10.1109/ICASSP.2016.7472159.

施引文献

期刊类型引用(1)
1. 葛斌，田文智，夏晨星，秦望博. 基于端到端深度强化学习求解有能力约束的车辆路径问题. 计算机应用研究. 2024(11): 3245-3250 . 百度学术
其他类型引用(2)

资源附件(0)

访问统计

图(3) / 表(3)

计量

文章访问数: 2554
HTML全文浏览量: 654
PDF下载量: 78
被引次数: 3

1. 引言
2. 评估模型与问题分析
2.1 指标参数
2.2 综合评估
2.3 问题分析
3. 本文算法
3.1 基于数据增强和相关对齐的迁移学习
3.2 基于启发函数改进蚁群算法的参数优化
3.3 基于支持向量机与通信指标的参数映射
4. 仿真分析
4.1 基于改进算法的支持向量机性能分析
4.2 基于Link16的干扰效能评估结果分析
5. 结束语

1. 引言
2. 评估模型与问题分析
2.1 指标参数
2.2 综合评估
2.3 问题分析
3. 本文算法
3.1 基于数据增强和相关对齐的迁移学习
3.2 基于启发函数改进蚁群算法的参数优化
3.3 基于支持向量机与通信指标的参数映射
4. 仿真分析
4.1 基于改进算法的支持向量机性能分析
4.2 基于Link16的干扰效能评估结果分析
5. 结束语

参考文献(17)

施引文献

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

双向长短时记忆模型训练中的空间平滑正则化方法研究

doi: 10.11999/JEIT180314

通讯作者:
张鹏远　pzhang@hccl.ioa.ac.cn

计量

Spatial Smoothing Regularization for Bi-direction Long Short-term Memory Model

1. 引言

2. 评估模型与问题分析

2.1 指标参数

2.2 综合评估

2.3 问题分析

3. 本文算法

3.1 基于数据增强和相关对齐的迁移学习

3.2 基于启发函数改进蚁群算法的参数优化

3.3 基于支持向量机与通信指标的参数映射

4. 仿真分析

4.1 基于改进算法的支持向量机性能分析

4.2 基于Link16的干扰效能评估结果分析

5. 结束语

期刊类型引用(1)

其他类型引用(2)

计量

目录

1. 引言

2. 评估模型与问题分析

2.1 指标参数

2.2 综合评估

2.3 问题分析

3. 本文算法

3.1 基于数据增强和相关对齐的迁移学习

3.2 基于启发函数改进蚁群算法的参数优化

3.3 基于支持向量机与通信指标的参数映射

4. 仿真分析

4.1 基于改进算法的支持向量机性能分析

4.2 基于Link16的干扰效能评估结果分析

5. 结束语

留言板

双向长短时记忆模型训练中的空间平滑正则化方法研究

doi: 10.11999/JEIT180314

通讯作者: 张鹏远 pzhang@hccl.ioa.ac.cn

计量

出版历程

Spatial Smoothing Regularization for Bi-direction Long Short-term Memory Model

1. 引言

2. 评估模型与问题分析

2.1 指标参数

2.2 综合评估

2.3 问题分析

3. 本文算法

3.1 基于数据增强和相关对齐的迁移学习

3.2 基于启发函数改进蚁群算法的参数优化

3.3 基于支持向量机与通信指标的参数映射

4. 仿真分析

4.1 基于改进算法的支持向量机性能分析

4.2 基于Link16的干扰效能评估结果分析

5. 结束语

期刊类型引用(1)

其他类型引用(2)

计量

出版历程

目录

1. 引言

2. 评估模型与问题分析

2.1 指标参数

2.2 综合评估

2.3 问题分析

3. 本文算法

3.1 基于数据增强和相关对齐的迁移学习

3.2 基于启发函数改进蚁群算法的参数优化

3.3 基于支持向量机与通信指标的参数映射

4. 仿真分析

4.1 基于改进算法的支持向量机性能分析

4.2 基于Link16的干扰效能评估结果分析

5. 结束语

通讯作者:
张鹏远　pzhang@hccl.ioa.ac.cn