结合多特征嵌入和多网络融合的中文医疗命名实体识别

雷松泽; 刘博; 王瑜菲; 单奥奎

doi:10.11999/JEIT220802

结合多特征嵌入和多网络融合的中文医疗命名实体识别

doi: 10.11999/JEIT220802

西安工业大学计算机科学与工程学院西安 710021

基金项目: 新型网络与检测控制国家地方联合工程实验室基金(GSYSJ2016008)

详细信息

作者简介:
雷松泽：男，博士，副教授，研究方向为深度学习、模式识别等

刘博：女，硕士生，研究方向为深度学习等

王瑜菲：女，硕士生，研究方向为深度学习等

单奥奎：男，硕士生，研究方向为深度学习等

通讯作者:
刘博　liubo0909888@163.com

1¹⁾ https://github.com/google-research/bert.
2²⁾ https://pinyin.sogou.com/dict/cate/index/132?rf=dictindex.³⁾ http://tool.httpcn.com/Zi/.⁴⁾ https://openhownet.thunlp.org/.
中图分类号: TP391.1; R-05
计量
- 文章访问数: 925
- HTML全文浏览量: 569
- PDF下载量: 143
- 被引次数: 12
出版历程
- 收稿日期: 2022-06-17
- 修回日期: 2022-12-02
- 网络出版日期: 2022-12-08
- 刊出日期: 2023-08-21

Chinese Medical Named Entity Recognition Combined with Multi-Feature Embedding and Multi-Network Fusion

School of Computer Science and Engineering, Xi’an Technological University, Xi’an 710021, China

Funds: The National Joint Engineering Laboratory of New Network and Detection Foundation (GSYSJ2016008)

摘要

摘要: 在医疗领域中，实体识别能够从大规模电子病历文本中提取有价值信息，由于缺乏定位实体边界的特征以及存在语义信息提取不完整等问题，中文的命名实体识别(NER)实现更加困难。该文提出一种针对中文电子病历的结合多特征嵌入和多网络融合的模型(MFE-MNF)。该模型嵌入多粒度特征，即字符、单词、部首和外部知识，扩展字符的特征表示，明确实体边界。将特征向量分别输入到双向长短期记忆神经网络(BiLSTM)和该文构建的自适应图卷积网络等双通路中，全面深入地捕获上下文语义信息和全局语义信息，缓解语义信息提取不完整问题。在CCKS2019和CCKS2020数据集上进行实验验证，结果表明，相比于传统实体识别模型，该文模型能够准确且有效地提取实体。
- 命名实体识别 /
- 多特征嵌入 /
- 多网络融合 /
- 自适应图卷积网络
Abstract: In the medical field, entity recognition can extract valuable information from the text of large-scale electronic medical records. Due to the lack of features for locating entity boundaries and incomplete semantic information extraction, the implementation of Chinese Named Entity Recognition(NER) is more difficult. In this paper, a model combining Multi-Feature Embedding and Multi-Net-work Fusion model (MFE-MNF) is proposed. The model embeds multi-granularity features, i.e. characters, words, radicals and external knowledge, extends the feature representation of characters and defines the entity boundary. The feature vectors are input respectively into the two paths of Bi-directional Long Short-Term Memory (BiLSTM) and adaptive graph convolution network to capture comprehensively and deeply the context semantic information and global semantic information, and alleviate the problem of incomplete semantic information extraction. The experimental results on CCKS2019 and CCKS2020 datasets show that compared with the traditional entity recognition model, the proposed model can extract entities accurately and effectively.
- Named Entity Recognition(NER) /
- Multi-feature embedding /
- Multi-network fusion /
- Adaptive graph convolutional network

HTML全文

1. 引言

电子病历文本常常以非结构化的形式存在，从中提取出关键的医学实体信息对进一步研究患者的疾病有很大的帮助，是对医学领域进行信息挖掘的重要资源，是顺利进行后续下游任务的一个关键步骤。在中文电子病历中，命名实体识别(Named Entity Recognition,NER)任务拥有广阔的应用场景，比如：临床决策系统^[1]、医学信息检索^[2]、智能问答系统^[3]等。因此，NER对于医疗领域中病历信息的处理具有重要的研究价值。

现阶段，深度学习在自然语言处理(Natural Language Processing, NLP)领域取得显著进步。Wu等人^[4]构建一种联合卷积神经网络(Convolutional Neural Network, CNN)、长短时记忆网络(Long Short-Term Memory, LSTM)、条件随机场(Conditional Random Fields, CRF)的体系结构来捕获本地和远程的上下文特征。Dong等人^[5]基于LSTM-CRF模型融入部首语义信息来提取实体。Xu等人^[6]提出了中文命名实体识别的多重嵌入(Multiple Embeddings for Chinese Named Entity Recognition, ME-CNER)模型，嵌入多个字符表示来识别实体。Zhang等人^[7]将注意力机制应用于嵌入层，实现多粒度嵌入。深度学习方法泛化能力强，能够自动挖掘深层特征。因此，本文选择基于深度学习的方法完成命名实体识别任务。

命名实体识别技术^[8]发展迅速，已经在各个领域中得到应用。张乐等人^[9]针对军事领域军事实体边界模糊^[10]的问题，提出基于预训练语言模型(Bidirectional Encoder Representation from Transformers, BERT)的深度学习识别方法。郭力华等人^[11]设计出一种利用最大正向匹配策略和社区注意力机制(the Forward Maximum Matching strategy and Community Attention Mechanism, FMM-CAM)的法律文书命名实体识别方法，该方法能有效提取出法律文书中的实体信息。在医疗领域，Ji等人^[12]针对标签不一致问题，设计出一种联合注意力，双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)和CRF的模型。然而，目前NER对于医学文本中出现的专业词语还是无法精确的辨识^[13]，对BERT^[14]等模型的研究和应用还不够深入。因此，对于医疗领域的文本资料进行NER研究，仍然有着重大的意义。

本文提出一种新的中文医疗实体识别方法，称为结合多特征嵌入和多网络融合的模型(combining Multi-Feature Embedding and Multi-Network Fusion model, MFE-MNF)。本模型推导一种多特征嵌入的方法提取特征向量，并将多特征嵌入向量分别输入到BiLSTM和本文构建的自适应图卷积网络等双通道中捕获上下文语义信息和全局语义信息。基于CCKS2019和CCKS2020数据集的实验评估，本文为NER方法在中国医学领域的实施提供了一些有价值的见解和观点。

2. 中文医疗文本的多特征嵌入

2.1 字符嵌入

字符是组成文本的基础单位，本文采用BERT¹模型捕获字符嵌入，将文本序列转换成为机器能够识别的字符向量。假设 ${\boldsymbol{s}} = \{ {c_1},{c_2}, \cdots ,{c_n}\}$ 描述文本中的一句话，则 ${c_i}(1 \le i \le n)$ 代表语句中的第 $i$ 个字，其对应的字符向量是 ${\boldsymbol{x}}_i^c$

${\boldsymbol{x}}_i^c = {{{\rm{e}}} ^c}\left( {c_i^{}} \right)$

(1)

2.2 单词嵌入

通过与词典信息进行匹配，将字符所对应的单词表示^[15]为 ${\boldsymbol{w}}_i^c = \{ w_{i1}^c,w_{i2}^c, \cdots ,w_{ij}^c\}$ ，其中 $w_{ij}^c$ 表示的是从第 $i$ 个字符开始的、长度为 $l$ 的单词。其中步长为 $l$ 的所有单词组成集合为 $w_{i,l}^c = \{ w_{i,1l}^c,w_{i,2l}^c, \cdots ,w_{i,kl}^c\}$ ，其中 $w_{i,kl}^c$ 表示的是从第 $i$ 个字符开始匹配得到的第 $k$ 个步长为 $l$ 的单词，使用BERT预训练语言模型获取单词特征表示，第 $i$ 个字符所对应的单词向量为 ${\boldsymbol{x}}_i^w$

${\boldsymbol{x}}_i^w = {{{\rm{e}}} ^w}\left( {{\boldsymbol{w}}_i^c} \right)$

(2)

2.3 多语义词典

本文创建了多语义词典，即单词词典和部首字典。从搜狗词库医学板块²下载医学词汇大全词典，并将其转换为可用格式，构造单词词典。在单词词典中包括了90047个医学名词。通过对CCKS2019和CCKS2020数据集遍历，得到一个包含所有不重复字的集合，爬取新华字典²，找到与所有字相对应的部首信息，构建一个部首字典。在该字典中总共包含12649个键值对，其中2041个字有多个部首，193个字等于它们自己的部首。

2.4 字形嵌入

中国汉字是象形文字，其偏旁部首中蕴含着特殊的含义，比如：“疒”部首代表着属于疾病类型的实体词，“月”部首代表着属于身体器官类型的实体词。本文采用CNN提取字形的部首特征。通过与部首字典匹配，得到字符对应的部首序列集合为 ${\boldsymbol{r}}_i^c = \{ r_{i1}^c,r_{i2}^c, \cdots ,r_{ij}^c\}$ ，其中 $r_{ij}^c$ 表示与第 $i$ 个字符匹配的部首，对应的部首向量为 ${\boldsymbol{x}}_i^r$

${\boldsymbol{x}}_i^r = {{\rm{pool}}} \left( {{{\rm{Conv}}} \left( {{\boldsymbol{r}}_i^c} \right)} \right)$

(3)

2.5 知识嵌入

HowNet²语言知识库中拥有丰富的语义资源，其是由义原信息组成的。知识嵌入模块从HowNet提供的义原信息中获得外部知识，并构建一棵语义树，知识嵌入的步骤如下：

步骤1　构造语义树。以HowNet为知识库基线，通过义原表征出语义关系，构造一颗语义树。在每个词中融合了语义树的信息，为词提供更加细粒度的解释。

步骤2　使用注意力机制提取知识特征。具体过程如图1所示。

图 1 知识嵌入模块

下载: 全尺寸图片幻灯片

对于每个概念单词 $w$ ，首先通过检索HowNet知识库整体得到每个单词的义原 ${\boldsymbol{S}}_j^{\left( w \right)}$ ，构建义原集合 ${{\rm{Sememe}}} \left( w \right) = \{ {\boldsymbol{S}}_1^{\left( w \right)},{\boldsymbol{S}}_2^{\left( w \right)}, \cdots ,{\boldsymbol{S}}_l^{\left( w \right)}\}$ 。每个单词的词义向量由其对应的义原向量相加求均值得到。引入注意力机制获得每个单词的关注分数，利用上下文信息获得中心词的义原信息的关注程度，灵活地选择出更符合语境的义原信息，提升中心词的表示能力。最终将所有的义原信息累加得到单词 $w$ 的知识特征向量

${\boldsymbol{x}}_i^y = \sum\limits_{i = 1}^{\left| {{{\boldsymbol{S}}^{\left( w \right)}}} \right|} {{{\rm{att}}} \left( {{\boldsymbol{S}}_j^{\left( w \right)}} \right)} \cdot {\boldsymbol{S}}_j^{\left( w \right)}$

(4)

其中， ${\boldsymbol{S}}_j^{\left( w \right)}$ 表示与词 $w$ 相似的第 $j$ 个词的嵌入表示， ${{\rm{att}}} \left( {{\boldsymbol{S}}_j^{\left( w \right)}} \right)$ 表示每个概念单词的注意力分数

${{\rm{att}}} \left( {{\boldsymbol{S}}_j^{\left( w \right)}} \right) = \frac{{\exp \left( {{\boldsymbol{w}}'_c \cdot {{{{\hat {\boldsymbol{S}}}}}_j}^{\left( W \right)}} \right)}}{{\displaystyle\sum\limits_{k = 1}^{\left| {{{\boldsymbol{S}}^{\left( W \right)}}} \right|} {\exp \left( {{\boldsymbol{w}}'_c \cdot {{{{\hat {\boldsymbol{S}}}}}_K}^{\left( W \right)}} \right)} }}$

(5)

其中， ${\boldsymbol{w}}'_c$ 表示上下文嵌入， ${{{\hat {\boldsymbol{S}}}}_j}^{\left( W \right)}$ 表示义原信息的平均值。

多特征嵌入层是指将多个特征融合嵌入，结合多语义词典，实现多粒度的实体提取，多特征嵌入如所示。对于输入的一段文本序列 ${\boldsymbol{s}} = \{ {c_1},{c_2}, \cdots ,{c_n}\}$ ，其中字符特征向量 ${\boldsymbol{x}}_i^c \in {{{\boldsymbol{R}}} ^{{d_c}}}$ ，单词特征向量 ${\boldsymbol{x}}_i^w \in {{{\boldsymbol{R}}} ^{{d_w}}}$ ，部首特征向量 ${\boldsymbol{x}}_i^r \in {{{\boldsymbol{R}}} ^{{d_r}}}$ ，知识特征向量 ${\boldsymbol{x}}_i^y \in {{{\boldsymbol{R}}} ^{{d_y}}}$ 融合嵌入公式为

图 2 基于多特征嵌入的字符表示

下载: 全尺寸图片幻灯片

${\boldsymbol{x}}_i^{cwry} = {\boldsymbol{x}}_i^c \oplus {\boldsymbol{x}}_i^w \oplus {\boldsymbol{x}}_i^r \oplus {\boldsymbol{x}}_i^y$

(6)

其中， ${d_c}$ 代表字符特征向量的维度， ${d_w}$ 代表单词特征向量的维度， ${d_r}$ 代表部首特征向量的维度， ${d_y}$ 代表知识特征向量的维度， $i \in \left\{ {1,2, \cdots ,n} \right\}$ 。

3. 模型设计

3.1 多特征嵌入层

提取医学实体时可以分别从字符、单词、字形、义原4个粒度提取语义特征，并构建多语义词典，准确提取语义特征。义原是最小的语义单位，每个词都可以由若干个义原来组合表示。图2展示了多个特征嵌入的模型结构。图3展示了句子“入院后诊断为阑尾炎”的语义树的形成过程。

图 3 “入院后诊断为阑尾炎”的语义树

下载: 全尺寸图片幻灯片

3.2 BiLSTM层

将嵌入层输出的向量输入到BiLSTM层中，用来获取上下文语义信息。BiLSTM能够捕获双向的隐藏层状态，通过拼接双向隐藏层输出，建模上下文信息。

3.3 自适应图卷积网络层

本文构建一种新的网络模型——自适应图卷积网络(Adaptive Graph Convolutional Network, AGCN)来融合邻近节点特征。具体实现步骤如下所示：

首先，构建语义丰富的字符图，使用滑动窗口扫描文本捕获信息。对于一个文本字符序列 $V = \left\{ {{c_1},{c_2}, \cdots ,{c_n}} \right\}$ ，其中 ${c_i}(1 \le i \le n)$ 表示文本中的第 $i$ 个字。假设滑动窗口的宽度为 $W$ ，以步长为 $l$ 前进，取得滑动窗口字符集为 $S = \left\{ {{S_1},{S_2}, \cdots ,{S_n}} \right\}$ ，其中 ${S_k}\left( {k = 1,2, \cdots ,n} \right)$ 表示在时刻 $k$ 的窗口字符间联系。

其次，使用点互信息^[16](Pointwise Mutual Information, PMI)来计算字符图中每两个节点之间的关联度，边的权重计算公式如下，如果值大于0，说明两个字符之间存在关联，权重值为PMI值，如果值小于0，说明两个字符之间不存在关联

${{\boldsymbol{A}}_{i,j}} = \left\{ {\begin{array}{lllll} {{\rm{PMI}}} \left( {{c_i},{c_j}} \right),&{{\rm{PMI}}} \left( {{c_i},{c_j}} \right) \gt 0 \\ 1,&{c_i} = {c_j} \\ 0,&{{\rm{PMI}}} \left( {{c_i},{c_j}} \right) \lt 0 \end{array}} \right.$

(7)

其中， ${{\rm{PMI}}} \left( {{c_i},{c_j}} \right)$ 是指两个字符 ${c_i}$ 和 ${c_j}$ 之间的关联度，主要的计算公式为

$\qquad {{\rm{PMI}}} \left( {{c_i},{c_j}} \right) = \lg \dfrac{{p\left( {{c_i},{c_j}} \right)}}{{p\left( {{c_i}} \right)p\left( {{c_j}} \right)}}$

(8)

$\qquad p\left( {{c_i},{c_j}} \right) = \dfrac{{m\left( {{c_i},{c_j}} \right)}}{{\left| S \right|}}$

(9)

$\qquad p\left( {{c_i}} \right) = \dfrac{{m\left( {{c_j}} \right)}}{{\left| S \right|}}$

(10)

其中， $m\left( {{c_i}} \right)$ 表示字符 ${c_i}$ 在字符集 $S$ 中出现的频率， $m\left( {{c_i},{c_j}} \right)$ 表示字符 ${c_i}$ 和字符 ${c_j}$ 一起在字符集 $S$ 中出现的频率， $\left| S \right|$ 表示字符集 $S$ 的数量。

使用 $V$ 表示字符集合，其作为图的节点， $E$ 表示字符序列之间的一组边，形式为 $E = \{ {c_i},{c_j},{{\rm{PMI}}} \}$ ，使用边将各个节点连接起来构成关联图。

最后，将构造的关联图定义为 $G = \left\{ {V,E} \right\}$ ，输入一段医学文本数据，每个字符作为图中的一个节点，每个节点 $i$ 对应的特征由嵌入层获得为 ${{\boldsymbol{x}}_i}$ ，其中， ${{\boldsymbol{x}}_i} \in {{{\boldsymbol{R}}} ^m}$ ， $m$ 表示特征向量的维数，所有节点的特征向量拼接构成一个特征矩阵 ${\boldsymbol{X}}$ ，其中， ${\boldsymbol{X}} \in {{{\boldsymbol{R}}} ^{n \times m}}$ ， $n$ 表示所有 $n$ 个字符节点。将 ${\boldsymbol{X}}$ 和字符关联图 $G$ 输入到AGCN模型中，得到一个特征矩阵 ${\boldsymbol{H}}$ ，其中， ${{\boldsymbol{H}}^{\left( 1 \right)}} \in {{\boldsymbol{{R}}} ^{n \times k}}$ ，其中 $k$ 表示每个节点的隐藏层的特征维度

${{\boldsymbol{H}}^{\left( 1 \right)}} = \sigma \left( {\hat {\boldsymbol{AX}}{{\boldsymbol{W}}^{\left( 0 \right)}}} \right)$

(11)

其中， $\hat {\boldsymbol{A}} = {\tilde {\boldsymbol{D}}^{ - \frac{1}{2}}}\tilde {\boldsymbol{A}}{\tilde {\boldsymbol{D}}^{ - \frac{1}{2}}}$ ， $\tilde {\boldsymbol{A}}$ 表示归一化对称邻接矩阵， $\tilde {\boldsymbol{A}} = {\boldsymbol{A}} + {{\boldsymbol{I}}_N}$ ， ${\boldsymbol{A}}$ 表示无向图的邻接矩阵， ${{\boldsymbol{I}}_N}$ 表示单位矩阵，由于邻接矩阵还包括自身的特征信息，因而加上单位矩阵，使对角线元素有值。 $\tilde {\boldsymbol{D}}$ 表示度矩阵， ${{{{\boldsymbol{D}}_{ii}}}} = \displaystyle\sum\nolimits_j {{{\boldsymbol{A}}_{ij}}}$ , ${{\boldsymbol{W}}^{\left( 0 \right)}} \in {{\boldsymbol{R}}^{ {{{m}} \times {{k}}}}}$ 是权重矩阵， $\sigma$ 为激活函数，例如ReLU激活函数。

每个节点经过图卷积层^[17]获取相连的节点的特征向量和关联度，聚合节点信息，进而更新自身节点的特征向量。通过堆叠多层AGCN模型，经过 $N$ 次图卷积，每个字符特征向量通过拓扑结构传播到邻近节点上，进而能够捕获全局的语义特征。逐层传播的公式为

${{\boldsymbol{H}}^{\left( {l + 1} \right)}} = \sigma \left( {\hat {\boldsymbol{A}}{{\boldsymbol{H}}^{\left( l \right)}}{{\boldsymbol{W}}^{\left( l \right)}}} \right)$

(12)

其中， ${{\boldsymbol{H}}^{\left( 0 \right)}} ={\boldsymbol{ X}}$ ， $l$ 表示层数。

3.4 语义融合

多头注意力容易表征特征向量内部的关联关系^[18]。因此，本文采用多头注意力机制来融合BiLSTM模块提取的向量和AGCN 模块提取的向量。将经过多头注意力机制融合后的向量 $X$ 输入到CRF层实行序列标注，利用最大似然方法对CRF模型进行参数优化。

4. 实验

本文实施一系列的实验以研究结合多特征嵌入和多网络融合的有效性。

4.1 数据集

CCKS2019数据集、CCKS2020数据集由医渡云技术有限公司提供。总共标注出6种实体类型，分别是疾病和诊断(Disease)、影像检查(Image-Check)、实验室检验(Lab-Check)、手术(Operation)、药物(Medicine)和解剖部位(Anatomical Site)。

由于存在标注不统一、实体位置偏差的问题，需要对输入数据进行优化处理。本文采用手工调整方式进行改正，统一英文字母大小写，将句子以句号进行分割，将文本中的标点符号“;”“:”等删除。数据预处理后，CCKS2019有1379条数据，CCKS2020有1050条数据集。

本文使用NER任务中常用的BIO标注模式。其中，B表示命名实体的开头，I表示命名实体的中间，O表示不是命名实体。中文电子病历标注结果如图4所示。

图 4 中文电子病历标注结果

下载: 全尺寸图片幻灯片

4.2 参数设置及评价指标

在实验中，设定句子的最大长度为256，长度大于256将被截断，长度不足256将使用<PAD>标签补充。采用保留验证法对超参数进行优化。使用验证集对超参数进行优化。模型的参数如表1所示。

表 1 实验参数设置

参数名	数值	单位
字符嵌入维度	768	维
GCN层数	2	层
滑动窗口大小	10	字符
Dropout	0.500	–
Batch_size	64	–
Epoch	80	轮
学习率	0.001	–

下载: 导出CSV

| 显示表格

本文采用精确度(Precision, P)、召回率(Recall, R)、F1值、计算复杂度和计算时间作为评价指标，当且仅当实体的边界和类别均被正确识别时，认为该实体才被正确识别。

4.3 对比实验结果及分析

本文选取了最具代表性的NER模型，并将它们与本文所提MFE-MNF模型进行比较。BiLSTM-CRF可以有效地提取上下文信息，是NER基本框架。Bert细化了编码单元，与Word2vec嵌入方式相比，Bert的F1值更高，表明Bert嵌入方式拥有较强鲁棒特性。ME-CNER模型采用多重嵌入，BiGRU-CRF网络作为标记器。与基线BiLSTM-CRF相比，ME-CNER在CCKS2019数据集上的F1评分提高了2.54，在CCKS2020数据集上的F1评分提高了3.18，充分显示了多重嵌入的有效性。Lattice模型^[19]采用BiLSTM-CRF结构，性能略优于ME-CNER模型。Bert-GCN-CRF模型^[20]利用图卷积网络来解决上下文信息获取问题，F1值得到了提升，表明GCN对于NER任务是有用的资源。

表2比较了在CCKS2019数据集上多种NER模型的结果，表3比较了在CCKS2020数据集上各种NER模型的结果。

表 2 各模型在CCKS2019数据集上的比较结果(%)

模型	P	R	F1
Word2vec-BiLSTM-CRF^[5]	80.74	80.42	80.59
Bert-BiLSTM-CRF^[21]	82.45	81.86	82.08
ME-CNER^[6]	83.56	82.91	83.13
Lattice LSTM^[19]	84.44	83.89	84.18
Bert-GCN-CRF^[20]	85.05	84.14	84.65
MFE-MNF	85.31	84.96	85.15

下载: 导出CSV

| 显示表格

表 3 各模型在CCKS2020数据集上的比较结果(%)

模型	P	R	F1
Word2vec-BiLSTM-CRF^[5]	87.16	86.77	86.97
Bert-BiLSTM-CRF^[19]	88.78	88.35	88.61
ME-CNER^[6]	90.10	90.17	90.15
Lattice LSTM^[20]	91.10	90.41	90.54
Bert-GCN-CRF^[21]	91.19	90.91	90.96
MFE-MNF	91.45	91.09	91.21

下载: 导出CSV

| 显示表格

本文所提MFE-MNF模型采用多特征嵌入的方法提取特征向量，不仅嵌入字符特征、单词特征、部首特征，而且融入了外部知识，提供了更丰富的语义信息，并结合BiLSTM和自适应图卷积网络模型，其F1值得到了提升。由此可以看出本文提出的模型优于其他模型，如表2、表3所示。

本文同时比较了不同模型的收敛时间，如图5所示。据观察，MFE-MNF模型在不同的数据集上都较先达到稳定。Lattice LSTM模型所用时间是长的，这是由于受限于模型里的batch-size，每个batch-size只能训练1个样本，大大降低了训练速度。由于Bert-BiLSTM-CRF和Bert-GCN-CRF模型都使用Bert，因此训练时间会比Word2vec-BiLSTM-CRF长。ME-CNER模型与Word2vec-BiLSTM-CRF模型的训练时间相差不大。由于本文提出的MFE-MNF模型分别采用BiLSTM和GCN提取语义，训练时间会比Word2vec-BiLSTM-CRF模型长，但远小于Lattice LSTM模型。综上所述，本文所提MFE-MNF模型是完成NER任务的一种有效的方法。

图 5 训练结果

下载: 全尺寸图片幻灯片

不同模型的计算复杂度和计算时间如表4所示。本文提出的MFE-MNF模型采用将transformer中self-attention层的前11层共享的方式，与其他模型相比，模型参数有所降低，并且准确率达到最高，该模型在计算复杂度、准确率方面都优于其他模型。

表 4 各模型的计算复杂度和计算时间的比较结果

模型	参数量(M)	计算量(M)	时间(s)
Word2vec-BiLSTM-CRF^[5]	17	26	4.49
Bert-BiLSTM-CRF^[21]	124	200	1.97
ME-CNER^[6]	15	23	3.36
Lattice LSTM^[19]	47	78	5.33
Bert-GCN-CRF^[20]	126	203	4.54
MFE-MNF	105	176	3.21

下载: 导出CSV

| 显示表格

4.4 深度分析

本文将从以下几个方面进一步讨论MFE-MNF中各个模块对模型的影响，以证明此模型的有效性。

(1)嵌入模块。在CCKS2019数据集上对MFE-MNF模型进行消融实验，分别去除不同的特征嵌入。

表5是消融实验结果显示。加入单词嵌入、部首嵌入、义原嵌入中的任何两个(标记为“+ word + radical”, “+ word + sememe”, “+sememe+radical”)，准确率较之前的实验都有所提升，并且，在有部首嵌入或者义原嵌入的实验中，性能提升得更高，表明部首嵌入和义原嵌入的重要性。

表 5 嵌入模块的消融实验(%)

模型	P	R	F1
character	87.93	87.58	87.77
+ word	89.29	88.51	89.08
+ radical	89.74	89.33	89.52
+ sememe	90.05	89.62	89.85
+ word + radical	90.43	90.09	90.28
+ word + sememe	91.01	90.37	90.74
+character+sememe+radical+word	91.45	91.09	91.21

下载: 导出CSV

| 显示表格

(2)语义信息提取模块。据观察，在嵌入模块不改变的情况下，如表6所示，单独使用BiLSTM或AGCN将显著降低性能。这表明BiLSTM和AGCN确实能够增强信息的深度提取能力。

表 6 语义信息提取模块的消融实验(%)

模型	P	R	F1
BiLSTM+AGCN	91.45	91.09	91.21
- BiLSTM	90.13	89.85	90.04
- AGCN	89.89	89.42	89.65

下载: 导出CSV

| 显示表格

(3)词典与覆盖率实验。首先将训练集分为实体全部出现、实体部分出现和实体没有出现3份进行试验，验证测试集中的实体在训练集中的出现能否对实验结果产生影响。同时，验证字典对模型准确率的影响，结果如表7、表8所示。通过结果可以看出当控制词典变量不变时，增加覆盖率能够提高模型的准确率；当控制覆盖率不变时，使用词典也能够提高准确率。

表 7 基于CCKS2019数据集的词典与覆盖率实验(%)

实体是否出现在训练集	没有词典			有词典
实体是否出现在训练集	P	R	F1	P	R	F1
全部出现	90.69	90.03	90.38	91.45	91.09	91.21
部分出现	88.28	87.60	87.92	88.99	88.23	88.62
不出现	86.88	86.77	86.85	87.60	87.09	87.29

下载: 导出CSV

| 显示表格

表 8 基于CCKS2020数据集的词典与覆盖率实验(%)

实体是否出现在训练集	没有词典			有词典
实体是否出现在训练集	P	R	F1	P	R	F1
全部出现	85.28	84.57	84.92	85.31	84.96	85.15
部分出现	82.82	81.14	81.46	83.53	82.77	83.13
不出现	81.42	80.31	80.77	82.14	81.63	81.83

下载: 导出CSV

| 显示表格

5. 结束语

针对医疗领域实体边界确定困难以及语义信息利用不充分的问题，本文提出一种新的MFE-MNF模型，旨在充分利用汉字中蕴含的词义信息以及句子中隐藏的语义信息，提升实体识别的准确度，主要创新点在于该模型将字符、单词、部首以及外部知识融合嵌入，并引入词典信息，基本解决了分词错误、单词边界模糊的问题。并且本文提出了自适应图卷积网络模型来捕获文本结构内部的全局语义信息，使用BiLSTM捕获上下文语义信息，通过双通路提取，其在一定程度上解决了语义信息提取不完整的问题。通过在不同数据集上做对比实验，结果表明，本文提出的MFE-MNF模型准确地完成了序列标注任务，准确率比传统模型有所提高。该模型充分展现了在中文医疗领域的优越性，并表现出较好的泛化能力。接下来将考虑进一步降低时间消耗，进一步提升模型的泛化能力。

图 1 知识嵌入模块

下载: 全尺寸图片幻灯片

图 2 基于多特征嵌入的字符表示

下载: 全尺寸图片幻灯片

图 3 “入院后诊断为阑尾炎”的语义树

下载: 全尺寸图片幻灯片

图 4 中文电子病历标注结果

下载: 全尺寸图片幻灯片

图 5 训练结果

下载: 全尺寸图片幻灯片

表 1 实验参数设置

参数名	数值	单位
字符嵌入维度	768	维
GCN层数	2	层
滑动窗口大小	10	字符
Dropout	0.500	–
Batch_size	64	–
Epoch	80	轮
学习率	0.001	–

下载: 导出CSV

表 2 各模型在CCKS2019数据集上的比较结果(%)

模型	P	R	F1
Word2vec-BiLSTM-CRF^[5]	80.74	80.42	80.59
Bert-BiLSTM-CRF^[21]	82.45	81.86	82.08
ME-CNER^[6]	83.56	82.91	83.13
Lattice LSTM^[19]	84.44	83.89	84.18
Bert-GCN-CRF^[20]	85.05	84.14	84.65
MFE-MNF	85.31	84.96	85.15

下载: 导出CSV

表 3 各模型在CCKS2020数据集上的比较结果(%)

模型	P	R	F1
Word2vec-BiLSTM-CRF^[5]	87.16	86.77	86.97
Bert-BiLSTM-CRF^[19]	88.78	88.35	88.61
ME-CNER^[6]	90.10	90.17	90.15
Lattice LSTM^[20]	91.10	90.41	90.54
Bert-GCN-CRF^[21]	91.19	90.91	90.96
MFE-MNF	91.45	91.09	91.21

下载: 导出CSV

表 4 各模型的计算复杂度和计算时间的比较结果

模型	参数量(M)	计算量(M)	时间(s)
Word2vec-BiLSTM-CRF^[5]	17	26	4.49
Bert-BiLSTM-CRF^[21]	124	200	1.97
ME-CNER^[6]	15	23	3.36
Lattice LSTM^[19]	47	78	5.33
Bert-GCN-CRF^[20]	126	203	4.54
MFE-MNF	105	176	3.21

下载: 导出CSV

表 5 嵌入模块的消融实验(%)

模型	P	R	F1
character	87.93	87.58	87.77
+ word	89.29	88.51	89.08
+ radical	89.74	89.33	89.52
+ sememe	90.05	89.62	89.85
+ word + radical	90.43	90.09	90.28
+ word + sememe	91.01	90.37	90.74
+character+sememe+radical+word	91.45	91.09	91.21

下载: 导出CSV

表 6 语义信息提取模块的消融实验(%)

模型	P	R	F1
BiLSTM+AGCN	91.45	91.09	91.21
- BiLSTM	90.13	89.85	90.04
- AGCN	89.89	89.42	89.65

下载: 导出CSV

表 7 基于CCKS2019数据集的词典与覆盖率实验(%)

实体是否出现在训练集	没有词典			有词典
实体是否出现在训练集	P	R	F1	P	R	F1
全部出现	90.69	90.03	90.38	91.45	91.09	91.21
部分出现	88.28	87.60	87.92	88.99	88.23	88.62
不出现	86.88	86.77	86.85	87.60	87.09	87.29

下载: 导出CSV

表 8 基于CCKS2020数据集的词典与覆盖率实验(%)

实体是否出现在训练集	没有词典			有词典
实体是否出现在训练集	P	R	F1	P	R	F1
全部出现	85.28	84.57	84.92	85.31	84.96	85.15
部分出现	82.82	81.14	81.46	83.53	82.77	83.13
不出现	81.42	80.31	80.77	82.14	81.63	81.83

下载: 导出CSV

参考文献(21)

[1]	MURRAY E, POLLACK L, WHITE M, et al. Clinical decision-making: Patients’ preferences and experiences[J]. Patient Education and Counseling, 2007, 65(2): 189–196. doi: 10.1016/j.pec.2006.07.007
[2]	GOEURIOT L, JONES G J F, KELLY L, et al. Medical information retrieval: Introduction to the special issue[J]. Information Retrieval Journal, 2016, 19(1): 1–5. doi: 10.1007/s10791-015-9277-8
[3]	ANSARI A, MAKNOJIA M, and SHAIKH A. Intelligent question answering system based on artificial neural network[C]. 2016 IEEE International Conference on Engineering and Technology (ICETECH), Coimbatore, India, 2016: 758–763.
[4]	WU Fangzhao, LIU Junxin, WU Chuhan, et al. Neural Chinese named entity recognition via CNN-LSTM-CRF and joint training with word segmentation[C]. the World Wide Web Conference, San Francisco, USA, 2019: 3342–3348.
[5]	DONG Chuanhai, ZHANG Jiajun, ZONG Chengqing, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[C]. The 24th International Conference on Computer Processing of Oriental Languages, 5th National CCF Conference on Natural Language Processing and Chinese Computing, Kunming, China, 2016: 239–250.
[6]	XU Canwen, WANG Feiyang, HAN Jialong, et al. Exploiting multiple embeddings for Chinese named entity recognition[C]. The 28th ACM International Conference on Information and Knowledge Management, Beijing, China, 2019: 2269–2272.
[7]	ZHANG Naixin, LI Feng, XU Guangluan, et al. Chinese NER using dynamic meta-embeddings[J]. IEEE Access, 2019, 7: 64450–64459. doi: 10.1109/ACCESS.2019.2916816
[8]	WANG Xiao, DOU Shihan, XIONG Limao, et al. MINER: Improving out-of-vocabulary named entity recognition from an information theoretic perspective[C]. The 60th Annual Meeting of the Association for Computational Linguistics, Dublin, Ireland, 2022.
[9]	张乐, 李健, 唐亮, 等. 基于预训练BERT的军事领域目标实体深度学习识别方法[J]. 信息工程大学学报, 2021, 22(3): 331–337. doi: 10.3969/j.issn.1671-0673.2021.03.013 ZHANG Le, LI Jian, TANG Liang, et al. Deep learning recognition method for target entity in military field based on pre-trained BERT[J]. Journal of Information Engineering University, 2021, 22(3): 331–337. doi: 10.3969/j.issn.1671-0673.2021.03.013
[10]	ZHU Enwei and LI Jinpeng. Boundary smoothing for named entity recognition[C]. The 60th Annual Meeting of the Association for Computational Linguistics, Dublin, Ireland, 2022.
[11]	郭力华, 李旸, 王素格, 等. 基于匹配策略和社区注意力机制的法律文书命名实体识别[J]. 中文信息学报, 2022, 36(2): 85–92. doi: 10.3969/j.issn.1003-0077.2022.02.010 GUO Lihua, LI Yang, WANG Suge, et al. Name entity recognition in legal instruments based on matching strategy and community attention mechanism[J]. Journal of Chinese Information Processing, 2022, 36(2): 85–92. doi: 10.3969/j.issn.1003-0077.2022.02.010
[12]	JI Bin, LIU Rui, LI Shasha, et al. A hybrid approach for named entity recognition in Chinese electronic medical record[J]. BMC Medical Informatics and Decision Making, 2019, 19(2): 64. doi: 10.1186/s12911-019-0767-2
[13]	YAN Hang, GUI Tao, DAI Junqi, et al. A unified generative framework for various NER subtasks[EB]. https://doi.org/10.48550/arXiv.2016.01223?file=arXiv.2016.01223.
[14]	LIU Qin, ZHENG Rui, RONG Bao, et al. Flooding-X: Improving BERT’s resistance to adversarial attacks via loss-restricted fine-tuning[C]. The 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, Ireland, 2022: 5634–5644.
[15]	LI Fei, LIN Zhichao, ZHANG Meishan, et al. A span-based model for joint overlapped and discontinuous named entity recognition[EB]. https://doi.org/10.48550/arXiv.2016.14373.
[16]	YAO Liang, MAO Chengsheng, and LUO Yuan. Graph convolutional networks for text classification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 7370–7377. doi: 10.1609/aaai.v33i01.33017370
[17]	CETOLI A, BRAGAGLIA S, O'HARNEY A D, et al. Graph convolutional networks for named entity recognition[C]. The 16th International Workshop on Treebanks and Linguistic Theories, Prague, Czech Republic, 2018.
[18]	AN Ying, XIA Xianyun, CHEN Xianlai, et al. Chinese clinical named entity recognition via multi-head self-attention based BiLSTM-CRF[J]. Artificial Intelligence in Medicine, 2022, 127: 102282. doi: 10.1016/j.artmed.2022.102282
[19]	ZHANG Yue and YANG Jie. Chinese NER using lattice LSTM[C]. The 56th Annual Meeting of the Association for Computational Linguistics, Melbourne, Australia, 2018.
[20]	景慎旗, 赵又霖. 面向中文电子病历文书的医学命名实体识别研究——一种基于半监督深度学习的方法[J]. 信息资源管理学报, 2021, 11(6): 105–115. doi: 10.13365/j.jirm.2021.06.105 JING Shenqi and ZHAO Youlin. Recognizing clinical named entity from Chinese electronic medical record texts based on semi-supervised deep learning[J]. Journal of Information Resources Management, 2021, 11(6): 105–115. doi: 10.13365/j.jirm.2021.06.105
[21]	DAI Zhenjin, WANG Xutao, NI Pin, et al. Named entity recognition using BERT BiLSTM CRF for Chinese electronic health records[C]. 2019 12th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), Suzhou, China, 2019: 1–5.

施引文献

期刊类型引用(5)

1.	赵珍珍，董彦如，刘静，张俊忠，曹慧. 融合词信息和图注意力的医学命名实体识别. 计算机工程与应用. 2024(11): 147-155 . 百度学术
2.	常远，季长伟，张春玲，胡强. 融合多特征嵌入的中文医疗命名实体识别模型MF-MNER. 小型微型计算机系统. 2024(12): 2915-2922 . 百度学术
3.	郭龙，梁灿，李彦丽. 知识库中标注词句序列命名实体识别方法. 计算机仿真. 2024(11): 512-516 . 百度学术
4.	孙争艳，陈磊，魏苏波，陈宝国. 基于边界信息和词汇信息增强的中文命名实体识别. 南京师范大学学报(工程技术版). 2024(04): 79-86 . 百度学术
5.	关斯琪，董婷婷，万子敬，何元生. 基于BERT-CRF模型的火灾事故案例实体识别研究. 消防科学与技术. 2023(11): 1529-1534 . 百度学术

其他类型引用(7)

资源附件(0)

访问统计

图(5) / 表(8)

计量

文章访问数: 925
HTML全文浏览量: 569
PDF下载量: 143
被引次数: 12

1. 引言
2. 中文医疗文本的多特征嵌入
2.1 字符嵌入
2.2 单词嵌入
2.3 多语义词典
2.4 字形嵌入
2.5 知识嵌入
3. 模型设计
3.1 多特征嵌入层
3.2 BiLSTM层
3.3 自适应图卷积网络层
3.4 语义融合
4. 实验
4.1 数据集
4.2 参数设置及评价指标
4.3 对比实验结果及分析
4.4 深度分析
5. 结束语

1. 引言
2. 中文医疗文本的多特征嵌入
2.1 字符嵌入
2.2 单词嵌入
2.3 多语义词典
2.4 字形嵌入
2.5 知识嵌入
3. 模型设计
3.1 多特征嵌入层
3.2 BiLSTM层
3.3 自适应图卷积网络层
3.4 语义融合
4. 实验
4.1 数据集
4.2 参数设置及评价指标
4.3 对比实验结果及分析
4.4 深度分析
5. 结束语

参考文献(21)

施引文献

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

结合多特征嵌入和多网络融合的中文医疗命名实体识别

doi: 10.11999/JEIT220802

作者简介: 雷松泽：男，博士，副教授，研究方向为深度学习、模式识别等 刘博：女，硕士生，研究方向为深度学习等 王瑜菲：女，硕士生，研究方向为深度学习等 单奥奎：男，硕士生，研究方向为深度学习等

通讯作者: 刘博 liubo0909888@163.com

计量

出版历程

Chinese Medical Named Entity Recognition Combined with Multi-Feature Embedding and Multi-Network Fusion

1. 引言

2. 中文医疗文本的多特征嵌入

2.1 字符嵌入

2.2 单词嵌入

2.3 多语义词典

2.4 字形嵌入

2.5 知识嵌入

3. 模型设计

3.1 多特征嵌入层

3.2 BiLSTM层

3.3 自适应图卷积网络层

3.4 语义融合

4. 实验

4.1 数据集

4.2 参数设置及评价指标

4.3 对比实验结果及分析

4.4 深度分析

5. 结束语

期刊类型引用(5)

其他类型引用(7)

计量

出版历程

目录

1. 引言

2. 中文医疗文本的多特征嵌入

2.1 字符嵌入

2.2 单词嵌入

2.3 多语义词典

2.4 字形嵌入

2.5 知识嵌入

3. 模型设计

3.1 多特征嵌入层

3.2 BiLSTM层

3.3 自适应图卷积网络层

3.4 语义融合

4. 实验

4.1 数据集

4.2 参数设置及评价指标

4.3 对比实验结果及分析

4.4 深度分析

5. 结束语

作者简介:
雷松泽：男，博士，副教授，研究方向为深度学习、模式识别等

刘博：女，硕士生，研究方向为深度学习等

王瑜菲：女，硕士生，研究方向为深度学习等

单奥奎：男，硕士生，研究方向为深度学习等

通讯作者:
刘博　liubo0909888@163.com