Chinese Medical Named Entity Recognition Combined with Multi-Feature Embedding and Multi-Network Fusion
摘要: 在医疗领域中,实体识别能够从大规模电子病历文本中提取有价值信息,由于缺乏定位实体边界的特征以及存在语义信息提取不完整等问题,中文的命名实体识别(NER)实现更加困难。该文提出一种针对中文电子病历的结合多特征嵌入和多网络融合的模型(MFE-MNF)。该模型嵌入多粒度特征,即字符、单词、部首和外部知识,扩展字符的特征表示,明确实体边界。将特征向量分别输入到双向长短期记忆神经网络(BiLSTM)和该文构建的自适应图卷积网络等双通路中,全面深入地捕获上下文语义信息和全局语义信息,缓解语义信息提取不完整问题。在CCKS2019和CCKS2020数据集上进行实验验证,结果表明,相比于传统实体识别模型,该文模型能够准确且有效地提取实体。Abstract: In the medical field, entity recognition can extract valuable information from the text of large-scale electronic medical records. Due to the lack of features for locating entity boundaries and incomplete semantic information extraction, the implementation of Chinese Named Entity Recognition(NER) is more difficult. In this paper, a model combining Multi-Feature Embedding and Multi-Net-work Fusion model (MFE-MNF) is proposed. The model embeds multi-granularity features, i.e. characters, words, radicals and external knowledge, extends the feature representation of characters and defines the entity boundary. The feature vectors are input respectively into the two paths of Bi-directional Long Short-Term Memory (BiLSTM) and adaptive graph convolution network to capture comprehensively and deeply the context semantic information and global semantic information, and alleviate the problem of incomplete semantic information extraction. The experimental results on CCKS2019 and CCKS2020 datasets show that compared with the traditional entity recognition model, the proposed model can extract entities accurately and effectively.
表 1 实验参数设置
参数名 数值 单位 字符嵌入维度 768 维 GCN层数 2 层 滑动窗口大小 10 字符 Dropout 0.500 – Batch_size 64 – Epoch 80 轮 学习率 0.001 – 表 2 各模型在CCKS2019数据集上的比较结果(%)
表 3 各模型在CCKS2020数据集上的比较结果(%)
表 4 各模型的计算复杂度和计算时间的比较结果
表 5 嵌入模块的消融实验(%)
模型 P R F1 character 87.93 87.58 87.77 + word 89.29 88.51 89.08 + radical 89.74 89.33 89.52 + sememe 90.05 89.62 89.85 + word + radical 90.43 90.09 90.28 + word + sememe 91.01 90.37 90.74 +character+sememe+radical+word 91.45 91.09 91.21 表 6 语义信息提取模块的消融实验(%)
模型 P R F1 BiLSTM+AGCN 91.45 91.09 91.21 - BiLSTM 90.13 89.85 90.04 - AGCN 89.89 89.42 89.65 表 7 基于CCKS2019数据集的词典与覆盖率实验(%)
实体是否出现在训练集 没有词典 有词典 P R F1 P R F1 全部出现 90.69 90.03 90.38 91.45 91.09 91.21 部分出现 88.28 87.60 87.92 88.99 88.23 88.62 不出现 86.88 86.77 86.85 87.60 87.09 87.29 表 8 基于CCKS2020数据集的词典与覆盖率实验(%)
实体是否出现在训练集 没有词典 有词典 P R F1 P R F1 全部出现 85.28 84.57 84.92 85.31 84.96 85.15 部分出现 82.82 81.14 81.46 83.53 82.77 83.13 不出现 81.42 80.31 80.77 82.14 81.63 81.83 -
