电子商务课件 第4章 搜索引擎.pptVIP

  • 13
  • 0
  • 约7.58千字
  • 约 92页
  • 2020-12-11 发布于山西
  • 举报
中文分词 方法 基于词典的分词方法 按照一定策略将待分析的汉字串与一个词典中的词条进行匹配,若在词典中找到该字符串,则匹配成功。 最大匹配法 (Maximum Matching, MM)——有词典切分、机械切分 正向最大匹配算法 (Forward MM, FMM) 逆向最大匹配算法 (Reverse MM, RMM) 双向最大匹配算法 (Bi-directional, BMM) 中文分词 方法 基于词典的分词方法 假设句子: ,某一词: ,m为词典中最长词的字数。 正向最大匹配算法(Forward MM, FMM) 对“南京市长江大桥”进行分词,设m=5,根据正向最大匹配的原则: ① 先从句子中取前5个字符“南京市长江”,把这5个字符到词典中匹配,发现没有这个词,那就缩短字符个数,取前四个“南京市长”,发现词库有这个词,就把该词切下来; ②对剩余三个字“江大桥”再次进行正向最大匹配,会切成“江”、“大桥”; ③整个句子切分完成为:南京市长、江、大桥。? 中文分词 方法 基于词典的分词方法 有研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,或

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档