- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大匹配法解决分词歧义的能力(续) 对于某些交集型歧义,可以通过增加回溯机制来改进最大匹配法的分词结果。 例如:“学历史知识” 顺向扫描的结果是:“学历/ 史/ 知识/”, 通过查词典知道“史”不在词典中,于是进行回溯,将“学历”的尾字“历”取出与后面的“史”组成“历史”,再查词典,看“学”,“历史”是否在词典中,如果在,就将分词结果调整为:“学/ 历史/ 知识/” 精品 最大概率法分词 基本思想是: (1)一个待切分的汉字串可能包含多种分词结果 (2)将其中概率最大的那个作为该字串的分词结果 路径1: 0-1-3-5 路径2: 0-2-3-5 该走哪条路呢? 精品 最大概率法分词 S: 有意见分歧 W1: 有/ 意见/ 分歧/ W2: 有意/ 见/ 分歧/ Max(P(W1|S), P(W2|S)) ? 独立性假设,一元语法 精品 最大概率法分词 词语 概率 … … 有 0.0180 有意 0.0005 意见 0.0010 见 0.0002 分歧 0.0001 … … P(W1) = P(有) * P(意见) * P(分歧) = 1.8 × 10-9 P(W2) = P(有意) * P(见) * P(分歧) = 1×10-11 P(W1) P(W2) 精品 提高计算效率 到达候选词wi时的累计概率 公式1 如何尽快找到概率最大的词串(路径)? 精品 提高计算效率(续) 左邻词假定对字串从左到右进行扫描,可以得到 , , … , , , … 等若干候选词,如果 的尾字跟 的首字邻接,就称 为 的左邻词。比如上面例中,候选词“有”就是候选词“意见”的左邻词,“意见”和“见”都是“分歧”的左邻词。字串最左边的词没有左邻词。 最佳左邻词如果某个候选词 有若干个左邻词 , , … 等等,其中累计概率最大的候选词称为 的最佳左邻词。比如候选词“意见”只有一个左邻词“有”,因此,“有”同时也就是“意见”的最佳左邻词;候选词“分歧”有两个左邻词“意见”和“见”,其中“意见”的累计概率大于“见”累计概率,因此“意见”是“分歧”的最佳左邻词 精品 最大概率分词算法 对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ; 到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词; 按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词; 如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词; 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。 精品 最大概率分词算法示例 (1)对“有意见分歧”,从左到右进行一遍扫描,得到全部候选词: “有”,“有意”,“意见”,“见”,“分歧”; (2)对每个候选词,记录下它的概率值,并将累计概率赋初值为0; (3)顺次计算各个候选词的累计概率值,同时记录每个候选词的 最佳左邻词: P(有)=P(有), P(有意) = P(有意), P‘(意见)=P’(有) × P(意见),(“意见”的最佳左邻词为“有”) P‘(见)=P’(有意) × P(见),(“见”的最佳左邻词为“有意”) P(意见)P(见) (4)“分歧”是尾词,“意见”是“分歧”的最佳左邻词,分词过程结束, 输出结果:有/ 意见/ 分歧/ 精品 最大概率法分词的问题 并不能解决所有的交集型歧义问题 “这事的确定不下来”W1= 这/ 事/ 的确/ 定/ 不/ 下来/W2= 这/ 事/ 的/ 确定/ 不/ 下来/ 无法解决组合型歧义问题“做完作业才能看电视”W1= 做/ 完/ 作业/ 才能/ 看/ 电视/W2= 做/ 完/ 作业/ 才/ 能/ 看/ 电视/ P(W1)P(W2) P(W1)P(W2) 精品 汉语切分的数据结构-词图 根据这个数据结构,我们可以把词法分析中的几种操作转化为: 给词图上添加边(查词典,处理重叠词、离合词、前后缀和未定义词); 寻找一条起点S到终点E的最优路径(切分排歧); 给路径上的边加上标记(词性标注); 结合 合成 成分 合 成 分 子 时 结 S E 子时 分子 精品 “结合成分子时”的全部分词路径示意 $ 结 结合 合 合成 成 成分 成 成分 分 分子 分 分子 子 子时 分 分子 子 子时 时 子 子时 时
原创力文档


文档评论(0)