Cross-domain Chinese Word Segmentation Based on New Word Discovery
摘要: 深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。Abstract: Deep Neural Network (DNN) is the major method in current Chinese word segmentation. However, its performance is significantly degraded when the network trained for one domain is used in other domains due to the Out Of Vocabulary (OOV) words and expression gaps. In this paper, a cross domain Chinese word segmentation system based on new word discovery is built to handle the OOV word and expression gap problems. An unsupervised new word discovery algorithm based on vector enhanced mutual information and weighted adjacency entropy, and a Chinese word segmentation model based on adversarial training are also proposed to improve the performance of the baseline system. Experimental results show that the proposed method is superior to the conventional methods in the OOV rates, precisions, recalls and F-scores.
表 1 实验中使用的语料大小(Byte)
语料 句子(k) 词语(M) 字符(M) 新闻 53.7 1.3 2.1 医疗 32.0 0.7 1.2 《诛仙》 59.0 2.1 3.0 《斗罗》 40.0 2.0 0.9 发明专利 17.0 0.6 0.9 表 2 不同方法的未登录词率(%)
算法 无新词发现 MI+BE 本文方法 医疗 25.93 16.31 5.42 《诛仙》 15.52 8.24 1.43 《斗罗》 11.15 7.06 1.23 发明专利 18.39 11.27 3.45 表 3 前20个最频繁出现词中垃圾词串数(个)
语料 医疗 《诛仙》 《斗罗》 发明专利 MI+BE 4 5 7 6 本文方法 1 1 2 6 表 4 基于对抗式训练的分词算法效果
性能指标 准确率(%) 召回率(%) F值 算法 基线 GCNN_CRF 本文方法 基线 GCNN_CRF 本文方法 基线 GCNN_CRF 本文方法 医疗 71.7 80.7 82.4 74.3 82.0 83.7 73.0 81.4 83.0 《诛仙》 77.8 89.3 90.3 75.6 87.5 87.7 76.7 88.4 89.0 《斗罗》 81.7 92.1 92.8 81.7 91.9 92.4 81.0 92.0 92.6 发明专利 84.3 88.1 89.8 81.6 87.1 87.2 82.9 87.6 88.5 -
