网站大量收购独家精品文档,联系QQ:2885784924

2.3.2基于统计的分词方法 - Read.PDF

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.3.2基于统计的分词方法 - Read

西北工业大学硕士学位论文 第二章 自动分词技术 处理对象,先处理具有特殊标志的字符 (串),如阿拉伯数字、拉丁字母等,中 文词语不可能跨过这些字符 (串)存在。然后用环境词表确定属于此类可列举的 词,即先判断一个字能否组成多字词,如五字词、四字词、三字词、双字词,最 后确定是否为单字词,这样便把一个个语段划分成较小语段。实际上是切分标志 法的一种变形方法。 2.3.2基于统计的分词方法 基于统计的分词方法的基本思想是:从形式上看,词是稳定的字的组合,因 此在文档中,相邻的字按顺序同时出现的次数越多,就越有可能构成一个词。因 此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。所以基于 统计的分词法的基本原理就是:对语料库中相邻的字的组合的频度进行统计,根 据一定的频度计算公式来决定字符串成为词的可能性来分词。字词共现的频度高 低体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个闽值时,便可认 为此字符串可能已经构成了一个词。 基于统计的分词方法所应用的主要的统计量或统计模型有:互信息、N元文 法模型、神经网络模型、隐Markov模型和最大嫡模型等。这些统计模型主要是 利用词与词的联合出现概率作为分词的信息。 典型的基于统计的分词方法有: 1.高频优先法 高频优先法(频度法)是一种动态方法,对不同长度和题材的文章,其效力也 不同。它主要用于找出 “切分词”串中隐含的、字典中没有的非常用词,如人名、 地名和科技新名词。原理是:将出现频率高的连续的切分词组作为一个词,如“汉 语分词技术”,由词典切分为 “汉语一分词一技术,(3个词)。但如果文章中,“汉 语分词技术”出现多次,则将其合为一个词。这就是由频度切分产生的频度词。 对全文 “切分词”串做上述处理后,“切分词”串转变为 “频度词”串。 2.最大概率分词法(MP算法) 该方法假设文档中的各种词的出现是独立的,追求分词结果中各词词频的乘 积最大,而词长和词数不再是分词的依据,而只依靠词频来解决汉语 自动分词的 15 西北工业大学硕士学位论文 第二章 自动分词技术 算法。该算法采用人工智能中的问题规约和状态空间搜索技术,能够迅速解决大 多数歧义切分问题。 3.统计取词法 该方法根据计算字与字相邻共现的频率或概率来确定是否成词。互现信息体 现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阐值时,便可认为此 字组可能构成了一个词。这种方法只需对语料中的字组的频度进行统计,不需要 切分词典。这种方法的局限性是会经常抽出一些共现频度高、但并不是词的常用 字组,并且对常用词的识别精度差,时空开销大。 4.基于期望法 该法是基于汉语语法及语用规律以及人们语言习惯而提出,它认为一个词的 出现对于它后面紧相随的词有一种期望。当然是期望最大的词优先,分词时根据 期望到期望最大的词所在的词库中找出所对应的词,从而切分出相应的词。这种 方法增加了分词的失控复杂度,但在一定程度上提高了分词精度。 5.最少分词词频选择法 哈工大王晓龙等人在构造汉语理解的层次化模型的基础上,提出了把反馈信 息限定为最简单形式,从而使分词层与语义无关的思想以及词串排序的三种策略: 按可能性大小排序,按运行时间长短排序,以及上述两种的结合。基于这些策略 的最少分词词频选择法具有运行时间短,分词精度高的双重优点。 该方法的基本做法是:先采用运行时间长短排序策略用最少匹配法分词以确 定第一候选,最少匹配法给出多条最佳路径,则在采用按可能性大小排序的策略 选择第一候选词串。 2.3.3基于理解的分词方法 理解切分法的基本思想是: 1.事先建立一个词库,其中包含所有可能出现的词和它们的各种语义信息。 2.对给定的待分词的汉语句子s,按照某种确定的原则 (例如按逆向最大匹 配法)切取s的子串。 3.若该子串与词库中的某词条相匹配,则从词库中取出该词的所有语义信息: 16

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档