思考题-鲁东大学外国语学院教学中心.PPTVIP

  • 2
  • 0
  • 约3.61千字
  • 约 25页
  • 2018-09-14 发布于天津
  • 举报

思考题-鲁东大学外国语学院教学中心.PPT

思考题-鲁东大学外国语学院教学中心

教学目标: 了解最佳匹配法 掌握有穷多层次列举法 的步骤 最大概率法 双向扫描法 逐词遍历法 该方法是把词典中的词按由长到短的顺序逐个搜索匹配整个待处理材料,直到把所有的词都切分出来为止。如“他睡觉打鼾”,利用该方法切分这一句话,不论分词词典多大,都得把整个分词词典匹配一遍。故这种方法的时间复杂度比较高,是一种不常使用的分词方法 设立切分标志法 设计思想:首先收集众多的切分标志,分词时先找出切分标志,把句子切分成一些较短的字段,然后用MM方法或RMM方法进行细分。 缺点: 增加分词的时间复杂度 要花费存储空间存放那些所谓的非自然切分标志 最佳匹配法——OM法 最佳匹配法(THE OPTIMUM MATCHING HETHOD)简称为OM。 最佳匹配法的设计思想 在词典中按词频的大小顺序排列词条,以求缩短分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。 实质上,这种分词 方法是预先对分词词典进行处理,而不是一种纯粹意义的分词方法。OM方法的分词词典每条词前面必须有指明长度的数据项,所以OM方法的空间复杂度稍有增加,OM方法虽然降低了分词的时间复杂度,但是并没有提高分词精度。 有穷多层次列举法 有穷多层次列举法希望依靠一个不大的小底表取得客观的分词效果,即一段上下文中出现多少词就分多少词,而不管这些词是否列入了底表。 有穷的词类大都是一些语言中的高频词,如:(1)疑问词、(2)方位词、(3)数词、(4)量词、(5)介词、(6)副词、(7)连词、(8)趋向词、(9)判断词、(10)助词、(11)叹词、(12)时间词、(13)能愿动词。 有穷多层次列举法的步骤 首先找出属于这十几类的词,把它们分离出来; 再找出两个、三个、四个音节的重叠词,把它们单独分离出来; 找出由后缀语素和前缀语素构成的词,并把它们分离出来; 上述过程处理后,通过该步骤处理实际上已经切分出来的词,如一句中第一个已被提取的单词前面只有一个字,则该字一定是词; 通过上面的四级处理后,待处理材料中的大部分词已被切分出来,但仍然有一些词无法切分,则该步骤使用别的方法来处理它们。 有穷多层次列举法可以更清楚地描述为:把待处理材料中标点符号所区分的语言片断作为处理对象,首先处理不用查询的具有特殊标志的字符串,如阿拉伯数字,拉丁字母等,然后用环境词表确定属于15类可列举的词,即先判断一个词能否组成多音节词,如五音节词,四音节词,……,双音节词,最后确定是否是单音节词,这样,便把一个个语段化分成较小的语段。在四音节词、三音节词、双音节词的判断中,先判断是否有特殊标志的重叠词、形态词,对类形态词查表判断是否为例外词,不是者置特殊标记,再查表切分出没有标记的词,再查表判断,按一定原则处理剩余的词。 二次扫描法 基本思想是取待处理材料中两个切分标志之间的部分作为样本串,首先从该样本串中取两个汉字作为匹配串,检查分词词典中是否有一个词,它的前两个汉字和该样本串相同,若有的话,则取样本串的前三个汉字作为匹配串,重新在分词词典中找可以匹配串的词,若有则重复下去,直到进行Ⅰ个汉字为止(设Ⅰ为词典中最长词所含汉字的个数),则切分出一个Ⅰ字词,若没有则完成了一次扫描;把匹配中的最后一个汉字去掉,作为新的匹配串,进行第二次扫描,第二次扫描是用MM方法或RMM方法进行。 如“中华人民的利益和愿望”,取字串“中华人民的利益和愿望”作为样本串,取“中华”作为匹配串,在分词词典中查找,由于分词词典中有“中华人民共和国”一词,故匹配成功,……,取“中华人民的”作为匹配串,则匹配失败,完成第一次扫描,第二次扫描用的匹配串为“中华人民”,用MM方法进行切分,从而得到“中华/人民”。由于汉语中的平均词长为1.83,故二次扫描法降低了分词的时间复杂度。二次扫描要求分词词典按国标递增的顺序存放词条,若不是这样存放,则二次扫描法的时间复杂度会增大。二次扫描法没有提高分词的精度,也没有增大分词的空间复杂度。这是一种切实可行的方法。 最大概率法 基本思路是:一个字串有多种切分形式,即对应于多个词串时,可以通过计算从中挑选出一个概率最大的词串作为切分结果。例如,“结合成分子时”,可以有“结合/成/分子/时/”、“结合/成分/子时/”、“结/合成/分子/时/”等许多种切法,只有第一种切法是正确的,可以期望该词串的概率是最高的。 词的概率一般指词在语料库中的出现概率,如果语料库规模足够大,可以用词的出现频率来近似。例如,语料库总词次为1300万,“结”出现3471次,“结合”出现3721次,则概率分别为0.267‰和0.286‰.下面是例句中各词的频数和频率(‰): 最大概率法对于组合型歧义的消解基本无

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档