中文分词入之最大匹配.docVIP

下载本文档

12
0
约1.24万字
约 7页
2016-12-24 发布于河南
举报
版权申诉

中文分词入之最大匹配.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词入门之最大匹配法发表于 HYPERLINK /maximum-matching-method-of-chinese-word-segmentation \o 08:00 2009年01月12号由 HYPERLINK /author/admin/ \o 查看所有由 52nlp 发布的文章 52nlp 　　中文分词在中文信息处理中是最最基础的，无论机器翻译亦或信息检索还是其他相关应用，如果涉及中文，都离不开中文分词，因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了，当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法（正向、逆向）。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序，不过他实现的是mfc程序，词表存储在数据库里。自己实现时用纯c++实现，利用hash_map存储词表。这里我介绍一下相关的知识和一个简单的程序示例，部分参考自詹老师的讲义。　　正向最大匹配法算法如下所示：（注：以上最大匹配算法图来自于詹老师讲义）　　逆向匹配法思想与正向一样，只是从右向左切分，这里举一个例子：　　　输入例句：S1=”计算语言学课程有意思” ；　　　定义：最大词长MaxLen = 5；S2= ” “；分隔符 = “/”；　　　假设存在词表：…，计算语言学，课程，意思，…；　　　最大逆向匹配分词算法过程如下：　（1）S2=”；S1不为空，从S1右边取出候选子串W=”课程有意思”；　（2）查词表，W不在词表中，将W最左边一个字去掉，得到W=”程有意思”；　（3）查词表，W不在词表中，将W最左边一个字去掉，得到W=”有意思”；　（4）查词表，W不在词表中，将W最左边一个字去掉，得到W=”意思”　（5）查词表，“意思”在词表中，将W加入到S2中，S2=” 意思/”，并将W从S1中去掉，此时S1=”计算语言学课程有”；　（6）S1不为空，于是从S1左边取出候选子串W=”言学课程有”；　（7）查词表，W不在词表中，将W最左边一个字去掉，得到W=”学课程有”；　（8）查词表，W不在词表中，将W最左边一个字去掉，得到W=”课程有”；　（9）查词表，W不在词表中，将W最左边一个字去掉，得到W=”程有”；　（10）查词表，W不在词表中，将W最左边一个字去掉，得到W=”有”，这W是单字，将W加入到S2中，S2=“ /有 /意思”，并将W从S1中去掉，此时S1=”计算语言学课程”；　（11）S1不为空，于是从S1左边取出候选子串W=”语言学课程”；　（12）查词表，W不在词表中，将W最左边一个字去掉，得到W=”言学课程”；　（13）查词表，W不在词表中，将W最左边一个字去掉，得到W=”学课程”；　（14）查词表，W不在词表中，将W最左边一个字去掉，得到W=”课程”；　（15）查词表，“意思”在词表中，将W加入到S2中，S2=“ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1=”计算语言学”；　（16）S1不为空，于是从S1左边取出候选子串W=”计算语言学”；　（17）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1=”；　（18）S1为空，输出S2作为分词结果，分词过程结束。相应程序示例：　　准备文件：建立一个词表文件wordlexicon，格式如下　　　　计算语言学　　　　课程　　　　意思　　输入文件：test,格式如下　　　　　计算语言学课程有意思　　编译后执行如下：SegWord.exe test　　输出分词结果文件：SegmentResult.txt源代码如下：// Dictionary.h#include iostream#include string#include fstream#include sstream#include hash_map using namespace std;using namespace stdext; class CDictionary{public:CDictionary(); //将词典文件读入并构造为一个哈希词典~CDictionary();int FindWord(string w); //在哈希词典中查找词 private:string strtmp; //读取词典的每一行string word; //保存每个词hash_mapstring, int wordhash; // 用于读取词典后的哈希hash_mapstring, int ::iterator worditer; //typedef pairstring, int sipair;}