《中文文本信息处理》 第三章 分词歧义消解.ppt

《中文文本信息处理》 第三章 分词歧义消解.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 分词规则(续1) 通用规则 适用于所有同类歧义字段 构词规则 排歧规则 中文文本信息处理的原理与应用 分词规则(续2) 构词规则 前缀词构词规则 例:阿哥、非金属、无条件 后缀词构词规则 例:花儿、爷儿们、艺术家 重叠字构词规则 例: 形式 举例 AA 家家、听听 AABB 日日夜夜、许许多多 ABB 黑漆漆、凉津津 ABAB 雪白雪白、高兴高兴 AAB 摇摇头、挥挥手 中文文本信息处理的原理与应用 分词规则(续3) 排歧规则 (1)成词切分优先(例:昨天 下课 后) (2)单字方位词不组词(例:她 伏 下 身子) (3)量词优先(例:来 了 三 个 人) (4)单字动词尽可能单独切分(例:不会 用 心机) (5)链长为2的交集字段自然成词(例:当天 下午) 注:以上规则必须严格按照规则次序调用 中文文本信息处理的原理与应用 主要内容 基本概念 基于规则的分词歧义消解 基于统计的分词歧义消解 中文文本信息处理的原理与应用 基于统计的分词歧义消解 基于词频 基于互信息和t-测试差 中文文本信息处理的原理与应用 基于词频 基本思想 由m个汉字组成的歧义切分字段C=c1c2…cm有两种切分结果W=w1w2…wn和V=v1v2…vk;若 ,则选择切分结果W; 若 ,则选择切分结果V。 其中,frq(w)表示词w的频率 中文文本信息处理的原理与应用 基于词频(续1) 例:“太平淡” C=太平淡 W=太/平淡/ V=太平/淡/ ∵frq(太)*frq(平淡) frq(太平)*frq(淡) ∴选择切分结果W=太/平淡/ 中文文本信息处理的原理与应用 基于词频(续2) 缺陷及改进 单纯使用词频信息,没有考虑到词性及词义信息,更没有考虑到不同词性和词义之间的概率转移关系,错误率较高。对于低频字将永远不能正确切分。 例: 他的确切菜了 他/ 的/ 确切/ 菜/ 了/ (错误) 用词性标注或概念标注方法分别计算两种切词路径的最大概率值,从中选取概率值较大的词串作为切分结果。 高频字,导致frq(的)*frq(确切) frq(的确)*frq(切) 中文文本信息处理的原理与应用 基于统计的分词歧义消解 基于词频 基于互信息和t-测试差 中文文本信息处理的原理与应用 基于互信息和t-测试差 处理对象 交叉型歧义切分字段 统计来源 未经加工的生语料 最大特点 值获取(统计)过程的完全自动化 中文文本信息处理的原理与应用 基于互信息和t-测试差(续1) 三个概念 互信息 t-测试 t-测试差 中文文本信息处理的原理与应用 基于互信息和t-测试差(续2) 互信息 对有序汉字串xy,汉字x、y之间的互信息定义为: 注:N-汉语语料库字容量;r(x,y)-x和y邻接同现的次数;r(x)-x独立出现的次数;r(y)-y独立出现的次数 ①I(x;y)0时,x、y之间具有可信结合关系,值越大,结合度越强; ②I(x;y)≈0时,x、y之间的结合关系不明确; ③I(x;y)0时,x、y之间基本没有结合关系,值越小,结合度越弱。 中文文本信息处理的原理与应用 基于互信息和t-测试差(续3) t-测试 对有序汉字串xyz,汉字相对于x及z的t-测试定义为: 中文文本信息处理的原理与应用 基于互信息和t-测试差(续4) t-测试 ① 时,y有与z相连的趋势,值越大,趋势越强; ② 时,不反映任何趋势; ③ 时,y有与x相连的趋势,值越小,趋势越强。 注:不利之处在于t-测试是挂靠在汉字上的,而不是挂靠于两个汉字之间的位置。 中文文本信息处理的原理与应用 基于互信息和t-测试差(续5) t-测试(例子) “球公开” I(球;公)=I(公;断)=3.2 “球”倾向于与“网”相连 “公”倾向于与“开”相连 结论: “球公”之间倾向于断,而“公开”之间倾向于连。 中文文本信息处理的原理与应用 基于互信息和t-测试差(续6) t-测试差 对有序汉字串vxyw,汉字x、y之间的t-测试差定义为: ①Δt(x;y)0时,x、y之间倾向于连; ②Δt(x;y)=0时,不反映任何倾向; ③Δt(x;y)0时,x、y之间倾向于断。 中文文本信息处理的原理与应用 基于互信息和t-测试差(续7) 基本思想 设交集歧义字段JS:a1…aib1…bmc1…cn,存在两种切分方案: seg1:a1…bm|c1…cn和seg2:a1…ai|b1…cn; 方案的选择?字bm,c1的断点pt1及字ai,b1的断点pt2的选择 考虑四个参量:I(pt1)、I(pt2)、Δt(p

您可能关注的文档

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档