一种组合型中文分词方法-计算机应用与软件.PDF

一种组合型中文分词方法-计算机应用与软件.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种组合型中文分词方法-计算机应用与软件

第29卷第7期    计算机应用与软件 Vol29No.7 2012年7月   ComputerApplicationsandSoftware Jul.2012 一种组合型中文分词方法 郑晓刚 韩立新 白书奎 曾晓勤 (河海大学计算机与信息学院 江苏南京211100) 摘 要  设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实 验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。 关键词  中文信息处理 中文自动分词 组合型分词 中图分类号 TP301    文献标识码 A ACOMBINATIONTYPECHINESEWORDSEGMENTATIONMETHOD ZhengXiaogang Hanlixin BaiShukui ZengXiaoqin (CollegeofComputerandInformationScience,HohaiUniversity,Nanjing211100,Jiangsu,China) Abstract  Inthispaper,wedesignandimplementacombinationtypewordsegmentationmechanism:thedictionarybasedlargesttwoway matching,thewordtaggingbasedChinesewordsegmentationmethodandthehiddenMarkovsegmentationapproach.Bycomparingtheexper imentalresults,wefindthatthiscombinationtypewordsegmentationmeanscanbettersolvetheChineseambiguityanddiscoverthenew word. Keywords  Chineseinformationprocessing Chinesewordautomaticsegmentation Combinationtypewordsegmentation 方法分词比较简单、便捷,但是无疑存在明显的缺陷,就是可能 0 引 言 造成歧义和不能识别新词。基于字符串匹配的分词方法首先要 有一个事先准备好的字典,如果在分词的过程中遇到一个字典 分词对于搜索引擎有着很大的作用,是文本挖掘的基础,可以 中没有的词,那么就不能正确切分出来。如果从正向开始来匹 帮助程序自动识别语句的含义,以达到搜索结果的高度匹配,分词 配,当处理“他们在研究生活”这句话,字典里有“研究”、“研究 的质量直接影响了搜索结果的精确度。中文和英文的分词不一样, 生”、“生活”这些常用词时,该句子会被切分为“研究生|活”,这 在英文中每个词是用空格分开的,不需要进行额外的分词处理,而 就是分词里的歧义现象。 在中文词中,每个句子中的词是没有空格的,需要用分词来处理。 [1] 1.2 基于统计的分词 比较流行的方法有三个大类 :1)基于字符串匹配的分词方法;2) 基于统计的分词方法;3)基于理解的分词方法。目前这些方法都 基于统计的分词方法主要应用的是统计量,统计模型[3,4] [6] 已经很成熟,但是成熟并不代表着能够很好地解决中文分词的问 有:互信息、N元文法模型、神经网络模型 和隐 Markov模型 题。歧义的判断和新词的识

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档