综合最大匹配和歧义检测的中文分词粗分方法.pdfVIP

  • 1
  • 0
  • 约1.51万字
  • 约 5页
  • 2017-08-14 发布于天津
  • 举报

综合最大匹配和歧义检测的中文分词粗分方法.pdf

综合最大匹配和歧义检测的中文分词粗分方法.pdf

ComputerEngineering口 4 fc口f0 计算机工程与应用 2012,48(14) 139 综合最大匹配和歧义检测的中文分词粗分方法 李国和1,2,3,刘光胜 ,秦波波 ’,吴卫江 ,李洪奇 。, LIGuohe,,LIUGuangsheng ,QrNBobo 一,WUWeijiang ,LIHongqi 1.中国石油大学 地球物理与信息工程学院,北京 102249 2-中国石油大学 (北京)油气资源与探测国家重点实验室,北京 102249 3.石大兆信数字身份管理与物联网技术研究院,北京 100029 1~CollegeofGeophysicsandInformationEngineering,ChinaUniversityofPetroleum,Beijing102249,China 2.TheStateKeyLabofPetroleumResourceandProspecting,ChinaUniversiytofPetroleum,Beijing102249,China 3.PanPassInstituteofDigitalIdentificationManagementandIntemetofThings,Beijing100029,China LIGuohe,LIUGuangsheng,QINBobo,eta1.MethodofChinesewordroughsegmentationbymaximum matchandambiguitydetectionalgorithms.ComputerEngineeringandApplications,2012,48(14):139-142. Abstract:SegmentationofwordsinChinesetextisveryimportantpreprocessinginChineseinfomr ationprocess— ing.Inpresent,forsomedemeritssuchaslow accuracyofChinesewordsegmentationandbigsetofChineseword roughsegmentation,amethod,CWRS,basedonmaximalmatchalgorithm isproposedalongwithomni-segmentation algorithm.Itgreatlyimprovestheaccuracyandreducesthesetofroughsegmentationaccordingtocombinationof ambiguiyt detectionandcrossambiguitydetection,whichlaysthefoundationofrprecisesegmentationofwordsin Chinesetext.AlltheexperimentsaregoodeffectsbycomparisonofCW RSwithotheralgorithmsonthesamedata setofcommonChinesetexts. Keywords:Chinesewordsegmentation;roughsegmentation;maximummatchalgorithm;omnis··egmentationalgo-· rithm:ambiguiytdetection 摘 要:中文分词是中文文本信息处理的重要预处理。针对 目前中文分词中存在的准确率低和粗分结果集大 的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文 本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验 对 比,取得很好的效果。 关键词:中文分词;粗分;最大匹配算法;全切分算法;歧义检测 文章编号:1002—8331(2012)14.0139—04 文献标识码:A 中图分类号:TP391 1 引言 要问题是切分歧义的识别和切分歧义的消除,即一 中文文本的分词是中文文本信息处理中关键的 个句子存在多个切分结果 (即切分歧义),通过确定 预处理u。由于汉语中词与词之间没有分隔符,导致 引起切分歧义的缘由(即切分歧义的识别),如组合 汉字句子难于切分 。中文分词中要解决的两个重 歧义或

文档评论(0)

1亿VIP精品文档

相关文档