高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于新词发现的跨领域中文分词方法

张军 赖志鹏 李学 宁更新 杨萃

张军, 赖志鹏, 李学, 宁更新, 杨萃. 基于新词发现的跨领域中文分词方法[J]. 电子与信息学报, 2022, 44(9): 3241-3248. doi: 10.11999/JEIT210675
引用本文: 张军, 赖志鹏, 李学, 宁更新, 杨萃. 基于新词发现的跨领域中文分词方法[J]. 电子与信息学报, 2022, 44(9): 3241-3248. doi: 10.11999/JEIT210675
ZHANG Jun, LAI Zhipeng, LI Xue, NING Gengxin, YANG Cui. Cross-domain Chinese Word Segmentation Based on New Word Discovery[J]. Journal of Electronics & Information Technology, 2022, 44(9): 3241-3248. doi: 10.11999/JEIT210675
Citation: ZHANG Jun, LAI Zhipeng, LI Xue, NING Gengxin, YANG Cui. Cross-domain Chinese Word Segmentation Based on New Word Discovery[J]. Journal of Electronics & Information Technology, 2022, 44(9): 3241-3248. doi: 10.11999/JEIT210675

基于新词发现的跨领域中文分词方法

doi: 10.11999/JEIT210675
基金项目: 国家自然科学基金(61871191),广东省自然科学基金(2020A1515010962),广州市科技计划(202002030251)
详细信息
    作者简介:

    张军:男,副教授,研究方向为语音信号处理、水声信号处理

    赖志鹏:男,硕士生,研究方向为语音信号处理、自然语言处理

    李学:男,硕士,研究方向为自然语言处理

    宁更新:男,副教授,研究方向为语音信号处理、水声信号处理

    杨萃:女,副教授,研究方向为信号处理、超声机器人

    通讯作者:

    张军 eejzhang@scut.edu.cn

  • 中图分类号: TP931

Cross-domain Chinese Word Segmentation Based on New Word Discovery

Funds: The National Natural Science Foundation of China (61871191), The Natural Science Foundation of Guangdong Province (2020A1515010962), The Natural Science Foundation of Guangzhou (202002030251)
  • 摘要: 深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。
  • 图  1  基线系统的结构

    图  2  基于对抗式训练的中文分词模型

    表  1  实验中使用的语料大小(Byte)

    语料句子(k)词语(M)字符(M)
    新闻53.71.32.1
    医疗32.00.71.2
    《诛仙》59.02.13.0
    《斗罗》40.02.00.9
    发明专利17.00.60.9
    下载: 导出CSV

    表  2  不同方法的未登录词率(%)

    算法无新词发现MI+BE本文方法
    医疗25.9316.315.42
    《诛仙》15.528.241.43
    《斗罗》11.157.061.23
    发明专利18.3911.273.45
    下载: 导出CSV

    表  3  前20个最频繁出现词中垃圾词串数(个)

    语料医疗《诛仙》《斗罗》发明专利
    MI+BE4576
    本文方法1126
    下载: 导出CSV

    表  4  基于对抗式训练的分词算法效果

    性能指标准确率(%)召回率(%)F值
    算法基线GCNN_CRF本文方法基线GCNN_CRF本文方法基线GCNN_CRF本文方法
    医疗71.780.782.474.382.083.773.081.483.0
    《诛仙》77.889.390.375.687.587.776.788.489.0
    《斗罗》81.792.192.881.791.992.481.092.092.6
    发明专利84.388.189.881.687.187.282.987.688.5
    下载: 导出CSV

    表  5  本文方法与现有方法的性能对比

    性能指标准确率(%)召回率(%)F值
    算法基线系统文献[6]本文方法基线系统文献[6]本文方法基线系统文献[6]本文方法
    医疗71.780.182.474.382.383.773.081.283.0
    《诛仙》77.886.790.375.688.987.776.787.889.0
    《斗罗》81.791.992.881.792.192.481.092.092.6
    发明专利84.385.589.881.686.387.282.985.988.5
    下载: 导出CSV
  • [1] 陈平, 刘晓霞, 李亚军. 基于字典和统计的分词方法[J]. 计算机工程与应用, 2008, 44(10): 144–146. doi: 10.3778/j.issn.1002-8331.2008.10.042

    CHEN Ping, LIU Xiaoxia, and LI Yajun. Chinese word segmentation based on dictionary and statistics[J]. Computer Engineering and Applications, 2008, 44(10): 144–146. doi: 10.3778/j.issn.1002-8331.2008.10.042
    [2] WU Andi and JIANG Zixin. Word segmentation in sentence analysis[C]. 1998 International Conference on Chinese Information Processing, Beijing, China, 1998: 169–180.
    [3] 朱聪慧, 赵铁军, 郑德权. 基于无向图序列标注模型的中文分词词性标注一体化系统[J]. 电子与信息学报, 2010, 32(3): 700–704. doi: 10.3724/SP.J.1146.2009.00214

    ZHU Conghui, ZHAO Tiejun, and ZHENG Dequan. Joint Chinese word segmentation and POS tagging system with undirected graphical models[J]. Journal of Electronics &Information Technology, 2010, 32(3): 700–704. doi: 10.3724/SP.J.1146.2009.00214
    [4] YUAN Zheng, LIU Yuanhao, YIN Qiuyang, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition[J]. Journal of Biomedical Informatics, 2020, 110: 103542. doi: 10.1016/j.jbi.2020.103542
    [5] DU Jinlian, MI Wei, and DU Xiaolin. Chinese word segmentation in electronic medical record text via graph neural network-bidirectional LSTM-CRF model[C]. 2020 IEEE International Conference on Bioinformatics and Biomedicine, Seoul, Korea, 2020: 985–989.
    [6] WANG Qi, ZHOU Yangming, RUAN Tong, et al. Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition[J]. Journal of Biomedical Informatics, 2019, 92: 103133. doi: 10.1016/j.jbi.2019.103133
    [7] XU Jingjing, MA Shuming, ZHANG Yi, et al. Transfer deep learning for low-resource Chinese word segmentation with a novel neural network[C]. The 6th National CCF Conference on Natural Language Processing and Chinese Computing, Dalian, China, 2017: 721–730.
    [8] BELLEGARDA J R. Statistical language model adaptation: Review and perspectives[J]. Speech Communication, 2004, 42(1): 93–108. doi: 10.1016/j.specom.2003.08.002
    [9] 刘伟童, 刘培玉, 刘文锋, 等. 基于互信息和邻接熵的新词发现算法[J]. 计算机应用研究, 2019, 36(5): 1293–1296. doi: 10.19734/j.issn.1001-3695.2017.11.0745

    LIU Weitong, LIU Peiyu, LIU Wenfeng, et al. New word discovery algorithm based on mutual information and branch entropy[J]. Application Research of Computers, 2019, 36(5): 1293–1296. doi: 10.19734/j.issn.1001-3695.2017.11.0745
    [10] 罗桂琼, 费洪晓, 戴弋. 基于反序词典的中文分词技术研究[J]. 计算机技术与发展, 2008, 18(1): 80–83.

    LUO Guiqiong, FEI Hongxiao, and DAI Yi. Research of Chinese segmentation based on converse segmentation dictionary[J]. Computer Technology and Development, 2008, 18(1): 80–83.
    [11] YAO Yushi and HUANG Zheng. Bi-directional LSTM recurrent neural network for Chinese word segmentation[C]. The 23rd International Conference on Neural Information Processing, Kyoto, Japan, 2016: 345–353.
    [12] LIU Liyuan, SHANG Jingbo, REN Xiang, et al. Empower sequence labeling with task-aware neural language model[C]. The Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, United States, 2018.
    [13] KAN Zhigang, QIAO Linbo, YANG Sen, et al. Event arguments extraction via dilate gated convolutional neural network with enhanced local features[J]. IEEE Access, 2020, 8: 123483–123491. doi: 10.1109/ACCESS.2020.3004378
    [14] MIKOLOV T, CHEN Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[C]. The 1st International Conference on Learning Representations, Scottsdale, Arizona, 2013.
    [15] KIM Y. Convolutional neural networks for sentence classification[C]. The 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 2014: 1746–1751.
    [16] Beijing Universty, City University of Hong Kong, CKIP, et al. The second international Chinese word segmentation bakeoff data[EB/OL]. http://sighan.cs.uchicago.edu/bakeoff2005/, 2005.
  • 加载中
图(2) / 表(5)
计量
  • 文章访问数:  833
  • HTML全文浏览量:  855
  • PDF下载量:  138
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-07-06
  • 修回日期:  2021-09-14
  • 录用日期:  2021-09-14
  • 网络出版日期:  2021-12-25
  • 刊出日期:  2022-09-19

目录

    /

    返回文章
    返回