基于马尔科夫间隔标注的中文分词算法.pdfVIP

基于马尔科夫间隔标注的中文分词算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于马尔科夫间隔标注的中文分词算法* 姜文斌,王志洋,刘群,吕雅娟 中国科学院计算技术研究所 北京 100190 E-mail: {jiangwenbin, wangzhiyang, liuqun, lvyajuan}@ 摘 要:典型的判别式方法通过标注每个字符在词中的相对位置,将分词看作字符标注问题。本文提出了一个形 式化的标注策略——马尔科夫间隔标注,来对汉语进行分词。在每一步中,N 阶马尔科夫间隔标注对连续的 N+1 个字符间隔进行标注,并按照马尔科夫方式来处理这 N+1 个间隔。实验结果表明:在使用相似特征的前提下,当 阶数由0渐变为2时,间隔标注方法的分词准确率也随之增加。 关键词:判别式方法;中文分词;特征模板选择;马尔科夫间隔标注 Word Segmentation by Markov Gap-Tagging Jiang Wenbin , Wang Zhiyang, Liu Qun, Lü Yajuan Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 E-mail: {jiangwenbin, wangzhiyang, liuqun, lvyajuan}@ Abstract: Classical discriminative approaches treat word segmentation as a character-tagging problem. This paper presents an alternative, formal tagging strategy named markov gap-tagging for Chinese word segmentation. An Nth order markov gap-tagging tags N+1 successive gap between characters at each step, and processes all these gap N+1-grams in a markov fashion. Experimental results show that, along with the markov order growing from 0 to 2, the accuracy of the gap-tagging-based segmentor increases continuously, although using similar features. Keywords: discriminative approach; Chinese word segmentation; markov gap-tagging 1. 引言 对于没有明显的词定界符的语言,例如汉语,分词是很多自然语言处理(NLP )任务的基础。 近年来,大量的基于语料库的机器学习方法被引入: 例如,生成模型——隐马尔科夫模型 (HMM )(Rabiner,1989),还有判别模型——条件随机场(CRFs)(Lafferty et al.,2001)等。由于 判别模型在表示特征时更为灵活,相比生成模型,它们往往能得到更好的结果。 根据字符在词中出现的规律,(Xue and Shen,2003) 将分词看作字符标注问题。通过从上下文 中抽取特征,判别式分类器给每个字符标注一个表征它在词间相对位置的标签。当所有字符的位 置标签都确定之后,我们便可从标注序列中得到分词结果。这种方法准确而且有效:一方面,很 多判别式方法可以用来训练分类器,像最大熵 (Ratnaparkhi and Adwait,1996);另一方面,如果 仅使用局部特征,我们可以根据动态规划搜索到全局最优的结果。此外,若在标注时引入词性 (POS )信息,这种方法也可以同时处理分词和词性标注问题 (Ng and Low,2004)。 在上述方法中,标注集的确定都是基于经验的,可能存在不能充分利用分类器能力

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档