利用覆盖歧义检测法和统计语言模型进行汉语自动分词

王显芳; 杜利民

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

利用覆盖歧义检测法和统计语言模型进行汉语自动分词

计量
- 文章访问数: 2584
- HTML全文浏览量: 154
- PDF下载量: 486
- 被引次数: 0
出版历程
- 收稿日期: 2002-03-19
- 修回日期: 2002-08-09
- 刊出日期: 2003-09-19

Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model

摘要

摘要: 该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。
- 统计语言模型; 覆盖歧义检测法; 自动分词
Abstract: In this paper, the question of Chinese automatic segmentation is discussed using overlaying ambiguity examining method and statistics language model. The multi-time iterative method is applied to train language model, which can produce a better model. The process of training language model is described in detail. The result shows that the perplexity of language model is reduced. The accuracy of segmentation changes with different language model and the reason is analyzed.

HTML全文

参考文献(1)

刘开瑛,中文文本自动分词和标注,上海,商务印书馆,2000,30-41[2]陈小菏,现代汉语自动分析,北京,北京语言文化大学出版社,1999,60-62.[3]马晏,基于评价的汉语自动分词系统的研究及实现,语言处理专论,北京,清华大学出版社,1996,80-105.[4]侯敏,孙建军,陈肇雄,汉语自动分词的歧义问题,计算语言学进展与应用,北京,清华大学出版社,1995,40-43.[5]沈达阳,孙茂松,基于统计的汉语分词模型及其实现方法,BYTE China,重庆,1998,2(2),38-40[6]孙茂松等,高频最大交集型歧义切分字段在汉语自动分词中的运用,中文信息学报,1999,13(1),60-62.[7]王雪松,汉语语言的多层面优化统计语言模型研究,[硕士论文],中科院声学所,1997,13-15.[8]张瑞强,用于汉语连续语音识别中的语言模型的研究,[博士论文],清华大学,1997,20-27.

施引文献

资源附件(0)

访问统计

计量

文章访问数: 2584
HTML全文浏览量: 154
PDF下载量: 486
被引次数: 0

留言板

利用覆盖歧义检测法和统计语言模型进行汉语自动分词

计量

出版历程

Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model

计量

出版历程

目录