正向最大匹配分词算法分析与改进.docVIP

下载本文档

70
0
约3.14千字
约 8页
2018-09-12 发布于福建
举报
版权申诉

正向最大匹配分词算法分析与改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

正向最大匹配分词算法分析与改进

正向最大匹配分词算法分析与改进　　摘要：本文主要通过对影响正向最大匹配算法效率的因素的分析，提出对该算法的一点改进，以及设计了相应的词典结构，以期在匹配过程中尽可能的减少比较次数，提高分词效率。　　关键词：中文分词；最大匹配算法；词典机制　　中图分类号TP39 文献标识码A 文章编号 1674-6708（2011）53-0164-02 　　0引言　　在自然语言处理中，“词是最小的能够独立活动的有意义的语言成分”[1]，而汉语和英语等其它西文比起来,有着自身的特点。英语、法语等欧美语言在书写时就以词为基本构成单位，以空格作为分词的依据；而汉语在书写时是一大串汉字的字符串，从形式上根本没有词的概念。中文分词指的就是将一个汉字序列切分成一个一个单独的具有实际意义的词，它是中文信息处理的基础。中文自动分词的现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[2]。　　在基于字符串匹配的分词算法中，词典的设计往往对分词算法的效率有很大的影响。本文通过对影响正向最大匹配算法效率因素的分析，设计一种带词长信息的分词词典，同时在该词典基础上，对正向最大匹配算法做出一些改进，以提高分词的效率。　　1正向最大匹配分词算法介绍和分析　　1.1 正向最大匹配分词算法介绍　　最大匹配算法是最基本的字符串匹配算法之一，它能够保证将词典中存在的最长复合词切分出来。传统的正向最大匹配分词算法（Maximum Matching，简称MM算法）的算法流程如图1所示。　　　　图1 MM 算法流程图　　假设分词词典中的最长词的字数为M，令其作为最大匹配系数。假设读取的汉字序列字数为L，判断L是否小于最大匹配系数M。如果L大于最大匹配系数M，则截取前M个汉字作为待匹配字段进行匹配，否则取整个汉字序列作为待匹配字段直接在分词词典中进行匹配。若字典中存在这样一个字数为M的词，则匹配成功，匹配字段被作为一个词切分出来；若词典中找不到这样的词，则匹配失败，将待匹配字段中的最后一个字去掉，将剩下的汉字序列作为待匹配字段重新在字典中进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词，或者直到剩余字串的长度为1为止，即为一个单字。这样就完成了一轮查找匹配，然后取剩下的汉字序列以同样的方法进行匹配处理,直到文档被扫描完为止。　　1.2算法分析　　正向最大分词算法有个弊端，就是在算法开始前必须先预设一个匹配词长的初始值，而一般这个值是词典中最长词的长度，这个长度限制是最大匹配算法在效率与词长之间的一种折中。词长过长效率就比较低，词典中各个词的长度都不一致，有点较长，而有的却只是二字词或三字词。如果词长过长，在查找短字词时，将会出现许多无效的匹配，这在很大程度上影响了分词的效率。而如果初始值选取的过小，那么长词就不能得到有效的切分，达不到最大分词的目的。　　根据汉语中词条的分布情况统计，在汉语中双字词语最多，而4字以上的词则比较少，如下表所示。可见，当初始值设置过长时，无效匹配的次数将在很大程度上消耗算法的效率。　　　　表1 词条分布情况表　　同时，在确定了词首字，在字典开始查找后，在以该词首字为前缀的词语中，词的长度一般都不是逐字减少的。比方说该字可能包含一个10字长的词语，但是并不含有9字，8字长的词语，而这时如果还是采用逐字减一的方法去匹配，又将增加无效匹配的次数，影响算法的效率。　　2 改进的正向最大匹配分词算法　　针对如上对正向最大匹配分词算法的分析，得出该算法在效率上存在的缺陷主要有：一固定最大匹配系数，二逐字递减的匹配。算法改进时将在这两方面做文章，使最大匹配系数能以词首字的改变而动态改变，同时在减字匹配过程中，不是每次都逐字减一再去字典匹配，而是利用词首字中包含的词长信息，来不定长的减字，以减少无效匹配的次数，从而在一定程度上提高算法的效率。　　2.1分词词典的设计　　词典的组织结构为首字索引结构，所有以同一个字为首的词条都组织在一起。词典由两部分组成，一部分是首字索引，另一部分是词典的正文。索引部分由字和以该字为前缀的词条的词长信息两部分组成。正文部分为词条内容和词条长度两部分信息组成。其中词条长度是用来给词条排序的，以词长从大到小来组织词典的正文，同时在匹配过程中，先用词长比较来代替直接比较字符串的方法，在词长相等的情况下再比较字符序列，来提高匹配的效率，而且词长信息能有效的记录已查询列表的索应信息，从而在改变词长继续查找时，能高效地减少匹配次数。其机构如图所示。　　　　图2 词典结构　　2.2分词算法　　Step1：取出待处理的汉字序列的首字，在首字hash表中查找，如果存在该字，则转step3；　　Ste