- 1
- 0
- 约1.51万字
- 约 5页
- 2017-08-14 发布于天津
- 举报
综合最大匹配和歧义检测的中文分词粗分方法.pdf
ComputerEngineering口 4 fc口f0 计算机工程与应用 2012,48(14) 139
综合最大匹配和歧义检测的中文分词粗分方法
李国和1,2,3,刘光胜 ,秦波波 ’,吴卫江 ,李洪奇 。,
LIGuohe,,LIUGuangsheng ,QrNBobo 一,WUWeijiang ,LIHongqi
1.中国石油大学 地球物理与信息工程学院,北京 102249
2-中国石油大学 (北京)油气资源与探测国家重点实验室,北京 102249
3.石大兆信数字身份管理与物联网技术研究院,北京 100029
1~CollegeofGeophysicsandInformationEngineering,ChinaUniversityofPetroleum,Beijing102249,China
2.TheStateKeyLabofPetroleumResourceandProspecting,ChinaUniversiytofPetroleum,Beijing102249,China
3.PanPassInstituteofDigitalIdentificationManagementandIntemetofThings,Beijing100029,China
LIGuohe,LIUGuangsheng,QINBobo,eta1.MethodofChinesewordroughsegmentationbymaximum
matchandambiguitydetectionalgorithms.ComputerEngineeringandApplications,2012,48(14):139-142.
Abstract:SegmentationofwordsinChinesetextisveryimportantpreprocessinginChineseinfomr ationprocess—
ing.Inpresent,forsomedemeritssuchaslow accuracyofChinesewordsegmentationandbigsetofChineseword
roughsegmentation,amethod,CWRS,basedonmaximalmatchalgorithm isproposedalongwithomni-segmentation
algorithm.Itgreatlyimprovestheaccuracyandreducesthesetofroughsegmentationaccordingtocombinationof
ambiguiyt detectionandcrossambiguitydetection,whichlaysthefoundationofrprecisesegmentationofwordsin
Chinesetext.AlltheexperimentsaregoodeffectsbycomparisonofCW RSwithotheralgorithmsonthesamedata
setofcommonChinesetexts.
Keywords:Chinesewordsegmentation;roughsegmentation;maximummatchalgorithm;omnis··egmentationalgo-·
rithm:ambiguiytdetection
摘 要:中文分词是中文文本信息处理的重要预处理。针对 目前中文分词中存在的准确率低和粗分结果集大
的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文
本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验
对 比,取得很好的效果。
关键词:中文分词;粗分;最大匹配算法;全切分算法;歧义检测
文章编号:1002—8331(2012)14.0139—04 文献标识码:A 中图分类号:TP391
1 引言 要问题是切分歧义的识别和切分歧义的消除,即一
中文文本的分词是中文文本信息处理中关键的 个句子存在多个切分结果 (即切分歧义),通过确定
预处理u。由于汉语中词与词之间没有分隔符,导致 引起切分歧义的缘由(即切分歧义的识别),如组合
汉字句子难于切分 。中文分词中要解决的两个重 歧义或
原创力文档

文档评论(0)