- 6
- 0
- 约9.65千字
- 约 5页
- 2018-01-11 发布于广东
- 举报
基于逆向最短路径和统计模型的中文词语粗分方法木
闫新庆‘11 王巍㈦李文锋‘1’ 陈定方‘叫41
[1]武汉理工大学智能制造与控制研究所武汉430063yxq@xianbo.com
[2]河南平顶山高等师范专科学校平顶山河南467000wangwei6617@sohu.com
liwf@mail.whut.edu.cn
[3]武汉理工大学智能制造与控制研究所武汉430063
[4]中国科学院计算技术研究所智能信息处理开放实验室北京100080dfchen@pub]ic.wh.hb.Cn
摘要:作为计算机进行中文处理的基础和关键,词语粗分必须能提供少量甚至唯一的高
准确度的词语切分结果。本文在引入了词语频率数据的扩展中文词典基础上,结合逆向最短
路径、全切分和基于统计概率分词方法,对原有的计算模型进行了改进,实现了一种结合逆
向最短路径和统计模型的中文词语粗切分方法。对大规模语料库的实验表明,在返回唯一结
果时,该方法的切分正确率达到了99.73%,比以前最好切分方法的正确率提高了6%多,证明
该方法是一种有效的、高准确率和实用的中文词语粗分方法。
关键词:词切分逆向最短路径统计模型
Words MethodBasedon
Chinese Segmentation
Rough
StatisticalModel
ReverseShortestPathand
Yan Wei‘21Li Chen
XinqingnlWang Wenfeng‘11‘31Dingfang‘1¨41
ManufactureandControl,WuhanofTechnology,Wuhan
【1】InstituteofIntelligent University
430063,yXq@xianbo.com
467000 1
Normal wangwei66
CollegePingdingshan 7@sohu.com
[2】Pingdingshan
of ManufactureandControl,Wuhan
【3】InstituteIntelligent UniversityofTechnology,Wuhan
430063,liwf@mail.whut.edu.cn
of
of Information Science,Beijing,
[4]OpenLaboratoryIntelligent Processing,ChinaAcademy
100080,dfchen@public.wh.hb.ca
of
the andfoundationChinese segmentation
Abstraet:As computerprocessing,wordsrough
key
word
even oneaccurate
原创力文档

文档评论(0)