- 0
- 0
- 约5.74千字
- 约 7页
- 2019-11-20 发布于天津
- 举报
中文分词入门之最大匹配法
发表于 \o 08:00 2009年01月12号 由 \o 查看所有由 52nlp 发布的文章 52nlp
中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c++实现,利用hash_map存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。 正向最大匹配法算法如下所示:(注:以上最大匹配算法图来自于詹老师讲义) 逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子: 输入例句:S1=”计算语言学课程有意思” ; 定义:最大词长MaxLen = 5;S2= ” “;分隔符 = “/”; 假设存在词表:…,计算语言学,课程,意思,…; 最大逆向匹配分词算法过程如下: (1)S2=”;S1不为空,从S1右边取出候选子串W=”课程有意思”; (2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”; (3)查词表,W不
原创力文档

文档评论(0)