中文分词算法初析.docVIP

下载本文档

3
0
约2.88千字
约 6页
2018-11-09 发布于福建
举报
版权申诉

中文分词算法初析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词算法初析

中文分词算法初析　　【摘要】中文分词就是将一个汉字序列切分成一个一个单独的词，并按照一定的规则重新组合成词序列的过程，己经被广泛应用于相关领域。其质量高低直接影响中文信息处理效率。因此，对中文分词的研究具有重要的理论和现实意义。本文将简要介绍中文分词的常用算法及常用中文分词包。　　【关键词】中文分词；算法；中文分词包　　一、研究背景　　网络时代信息量爆炸式增长，依靠传统手工方法已经无法处理。因此出现各种自动化的方法来解决这个问题。而这些方法的前提就是中文分词。中文分词属于自然语言处理范畴。我们知道，英文中单词之间是以空格作为分界符，而中文词语之间没有空格。因此在词的分割上，中文比英文要复杂困难的多。中文分词在语言学与计算科学方面都有困难，而在计算机科学中的难题，一是歧义识别问题，二是未登录词的处理问题。　　二、研究现状　　现有的分词算法可分为三大类：机械分词法、基于理解的分词方法和基于统计的分词方法。　　（一）机械分词法　　机械分词法也称作基于字符串匹配的分词方法。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大匹配和最小匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：　　1.最大正向匹配法（Maximum Matching Method）通常简称为MM法。其基本思想为：设D为词典，M表示D中的最大词长，S为待分割的字符串。MM法每次从S中取长度为M的子串与D中的词进行匹配。若成功，这样的一个匹配字符串被作为一个词切分出来，指针后移M个汉字后继续匹配；或不成功，则该字符串逐次减一进行匹配。　　2.逆向最大匹配法（Reverse Maximum Matcing Method）通常简称为RMM法。RMM法的基本原理与MM法相同，不同的是分词的扫描方向是从右至左取字符串进行匹配。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。为了提高分词的精确度，实际工作中常常采用正逆向结合的双向匹配法。　　（二）基于统计的分词方法　　该方法是一种全切分方法：词是稳定的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。对语料文本中同时出现字符组合的频度进行统计，当同时出现的频度高于某一阈值时，便认为此字符组合构成了一个词。这种方法的优点在于可以发现所有的切分歧义并且容易将新词提取出来。将它与机械分词结合，可以既实现切分速度快，又能自动消除歧我、结合上下文识别生词。这种方法主要的统计模型有：N元文法模型、隐Markov模型和最大熵模型等。　　（三）基于基于人工智能的分词方法　　基本思想是：在分词的同时进行句法、语义分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的帮助下，分词子系统可以获得词、句子等的句法和信息，模拟人对句子的理解来对分词的歧义进行判断。由于汉语的复杂性和过于灵活，目前此类分词系统尚未成熟。　　（四）并行分词法　　这种分词方法通过建立机群环境，安装并行系统，借助于一个含有分词词库的管道进行，比较匹配过程是分步进行的，每一步可以对进入管道中的词同时与词库中相应的词进行比较，由于同时有多个词进行比较匹配，因而分词速度可以大幅度提高。　　三、中文分词的两大难题　　（一）歧义识别　　歧义是指一句话，有两种及以上的词语切分方法。常风的歧义有三种，分别是交集型歧义、组合型歧义与真歧义。交集型歧义约占全部歧义的85%，它是这样的歧义：待切分字符串xyz，若xy、yz同时满足切分条件，即同时为词，则字符串xyz中的字符串y被称作次串，字符串xyz被称作交集型切分歧义。例如：“中间隔”这个字符串，可切分为“中间”“隔”，也可切分为“中”“间隔”，其中的“间”就是交集串。组合型歧义必须根据整个句子的语义来判断。例如：“门把手坏了”与“请把手举高”，前一句子中“把手”是词，而后一句子中“把手”不是词。第三种歧义是真歧义，情况则更为复杂，需要通过上下文环境来判断。比如：“乒乓球拍卖完了”，可以切分为“乒乓球拍/卖完了”，也可以切分为“乒乓球/拍卖完了”，这就必须通过上下文语境来判断了。　　（二）未登录问题　　未登录词大致包含两大类：1）新涌现的通用词或专业术语等；2）专有名词，如中