基于马尔科夫间隔标注的中文分词算法.pdfVIP

下载本文档

21
0
约1.1万字
约 6页
2017-09-15 发布于重庆
举报
版权申诉

基于马尔科夫间隔标注的中文分词算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于马尔科夫间隔标注的中文分词算法* 姜文斌,王志洋,刘群,吕雅娟中国科学院计算技术研究所北京 100190 E-mail: {jiangwenbin, wangzhiyang, liuqun, lvyajuan}@ 摘要：典型的判别式方法通过标注每个字符在词中的相对位置，将分词看作字符标注问题。本文提出了一个形式化的标注策略——马尔科夫间隔标注，来对汉语进行分词。在每一步中，N 阶马尔科夫间隔标注对连续的 N+1 个字符间隔进行标注，并按照马尔科夫方式来处理这 N+1 个间隔。实验结果表明：在使用相似特征的前提下,当阶数由0渐变为2时，间隔标注方法的分词准确率也随之增加。关键词：判别式方法；中文分词；特征模板选择；马尔科夫间隔标注 Word Segmentation by Markov Gap-Tagging Jiang Wenbin , Wang Zhiyang, Liu Qun, Lü Yajuan Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 E-mail: {jiangwenbin, wangzhiyang, liuqun, lvyajuan}@ Abstract: Classical discriminative approaches treat word segmentation as a character-tagging problem. This paper presents an alternative, formal tagging strategy named markov gap-tagging for Chinese word segmentation. An Nth order markov gap-tagging tags N+1 successive gap between characters at each step, and processes all these gap N+1-grams in a markov fashion. Experimental results show that, along with the markov order growing from 0 to 2, the accuracy of the gap-tagging-based segmentor increases continuously, although using similar features. Keywords: discriminative approach; Chinese word segmentation; markov gap-tagging 1. 引言对于没有明显的词定界符的语言，例如汉语，分词是很多自然语言处理（NLP ）任务的基础。近年来，大量的基于语料库的机器学习方法被引入: 例如，生成模型——隐马尔科夫模型（HMM ）(Rabiner,1989)，还有判别模型——条件随机场（CRFs）(Lafferty et al.,2001)等。由于判别模型在表示特征时更为灵活，相比生成模型，它们往往能得到更好的结果。根据字符在词中出现的规律，(Xue and Shen,2003) 将分词看作字符标注问题。通过从上下文中抽取特征，判别式分类器给每个字符标注一个表征它在词间相对位置的标签。当所有字符的位置标签都确定之后，我们便可从标注序列中得到分词结果。这种方法准确而且有效：一方面，很多判别式方法可以用来训练分类器，像最大熵 (Ratnaparkhi and Adwait,1996)；另一方面，如果仅使用局部特征，我们可以根据动态规划搜索到全局最优的结果。此外，若在标注时引入词性（POS ）信息，这种方法也可以同时处理分词和词性标注问题 (Ng and Low,2004)。在上述方法中，标注集的确定都是基于经验的，可能存在不能充分利用分类器能力