中文分词国伟72课件讲解.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

中文分词主讲教师:国伟

分词概述02基于规则的分词01

0101分词概述

分词概述

1)什么是分词分词是将给定语言的字符序列按照规则组合排序成词语序列的处理过程。在英文中,单词之间以空格为自然分隔符,分词时以空格为单位进行切分,而中文的词与词之前没有明显的分隔标志,因此中文分词比较困难。

分词概述2)中文分词中文分词是指将汉字序列按照一定规范、逐个切分为词序列的过程。例如:北京市民办高中分词结果:北京市/民办高中。

分词概述3)中文分词方法常用中文分词方法分为两大类:基于规则分词基于统计的分词

02基于规则的分词02

基于规则的分词

基于规则的分词方法是一种最先使用的,较为机械的分词方法,其基本思想:将待分词语句中的字符串和词典逐个匹配,找到匹配的字符串则切分,不匹配则减去边缘的某些字符,从头再次匹配,直至匹配完毕或者没有匹配到词典的字符而结束。基于规则的分词方法主要有:正向最大匹配法(MaximumMatchMethod,MM法)。逆向最大匹配法(ReverseMaximumMatchMethod,RMM法)。双向最大匹配法(Bi-directionMatchingMethod,BMM法)。

基于规则的分词

1)正向最大匹配法(MaximumMatchMethod,MM法)假设有一个待分词中文文本和一个分词词典,词典中最长的字符串长度为L。从左至右切分待分词文本的前L个字符,然后查找是否有和词典一致的字符串。若匹配失败,则删去该字符串的最后一个字符,仅留下前L-1个字符,继续匹配这个字符串,以此类推。如果匹配成功,那么被切分下来的第二个文本成为新的待分词文本,重复以上操作直至匹配完毕。如果一个字符串全部匹配失败,那么逐次删去第一个字符,重复上述操作。

基于规则的分词

假设待分词文本为“北京市民办高中”,词典为“{北京市,北京市民,民办高中,中华世纪坛,高中}”。由词典得到最长字符串的长度为5,具体分词步骤如下。切分待分词文本“北京市民办高中”前5个字符,得到“北京市民办”,在词典中找不到与之匹配的字符串,匹配不成功。删去“北京市民办”的最后一个字符得到“北京市民”,再与词典进行匹配。在词典中找到与之匹配的字符串,匹配成功。此时,将文本划分为“北京市民”“办高中”。将分词后的第二个文本“办高中”作为待分词文本。此时词典中找不到与之匹配的字符串,匹配不成功。删去“办高中”的最后一个字符,匹配失败,直至删去所有字符都没有匹配成功,因此删去“办高中”的第一个字符,匹配“高中”一词成功,将第二个文本划分为“办”、“高中”。正向最大匹配法分词结果:“北京市民”、“办”、“高中”。

基于规则的分词

正向最大匹配法中文分词具体流程展示如下所示。

基于规则的分词

2)逆向最大匹配法(ReverseMaximumMatchMethod,RMM法)RMM与MM法原理相反,从右至左匹配待分词文本的后l个字符串,查找是否有和词典一致的字符串。若匹配失败,仅留下待分词文本的后L-1个词,继续匹配这个字符串,以此类推。如果匹配成功,则被切分下来的第一个文本序列成为新的待分词文本,重复以上操作直至匹配完毕。如果一个词序列全部匹配失败,则逐次删去最后一个字符,重复上述操作。

基于规则的分词

同样以待分词文本“北京市民办高中”为例说明逆向最大匹配法,具体分词步骤如下。切分待分词文本“北京市民办高中”后5个字符,得到“市民办高中”,在词典中找不到与之匹配的字符串,匹配不成功。删去“市民办高中”的第一个字符得到“民办高中”,再与词典进行匹配,匹配成功,将文本划分为“北京市”、“民办高中”。将分词后的第一个文本“北京市”作为待分词文本,与词典匹配成功。逆向最大匹配法分词结果:“北京市”“民办高中”。

基于规则的分词

逆向最大匹配法中文分词具体流程展示如下图所示。

基于规则的分词

3)双向最大匹配法(Bi-directionMatchingMethod,BMM法)双向最大匹配法基本思想是将MM法和RMM法的结果进行对比,选取两种方法中切分次数较少的作为切分结果。用正向最大匹配法和逆向最大匹配法对“北京市民办高中”进行分词,结果分别为“北京市民”、“办”、“高中”和“北京市”、“民办”、“高中”。选取切分次数最少的结果为“北京市”、“民办高中”。研究表明,利用正向最大匹配法和逆向最大匹配法匹配,中文分词大约90%的词句完全重合且正确,有9%左右的句子得到的结果不一样,但其中有一个是正确的。剩下不到1%的句子使用两种方法进行切分都是错误的。因而,双向最大匹配法在中文分词领域中得以广泛运用。

04本讲小结04

中文分词主讲教师:国伟

文档评论(0)

一笑倾洁 + 关注
实名认证
文档贡献者

PPT课件

1亿VIP精品文档

相关文档