《中文文本信息处理》第三章分词歧义消解.ppt

下载文档 降价啦

17
0
约5.66千字
约 50页
2018-03-22 发布于福建
举报
版权申诉
保障服务

《中文文本信息处理》第三章分词歧义消解.ppt

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文文本信息处理的原理与应用分词规则（续1）通用规则适用于所有同类歧义字段构词规则排歧规则中文文本信息处理的原理与应用分词规则（续2）构词规则前缀词构词规则例：阿哥、非金属、无条件后缀词构词规则例：花儿、爷儿们、艺术家重叠字构词规则例：形式举例 AA 家家、听听 AABB 日日夜夜、许许多多 ABB 黑漆漆、凉津津 ABAB 雪白雪白、高兴高兴 AAB 摇摇头、挥挥手中文文本信息处理的原理与应用分词规则（续3）排歧规则 (1)成词切分优先（例：昨天下课后） (2)单字方位词不组词（例：她伏下身子） (3)量词优先（例：来了三个人） (4)单字动词尽可能单独切分（例：不会用心机） (5)链长为2的交集字段自然成词（例：当天下午）注：以上规则必须严格按照规则次序调用中文文本信息处理的原理与应用主要内容基本概念基于规则的分词歧义消解基于统计的分词歧义消解中文文本信息处理的原理与应用基于统计的分词歧义消解基于词频基于互信息和t-测试差中文文本信息处理的原理与应用基于词频基本思想由m个汉字组成的歧义切分字段C=c1c2…cm有两种切分结果W=w1w2…wn和V=v1v2…vk；若，则选择切分结果W；若，则选择切分结果V。其中，frq(w)表示词w的频率中文文本信息处理的原理与应用基于词频（续1）例：“太平淡” C=太平淡 W=太/平淡/ V=太平/淡/ ∵frq(太)*frq(平淡) frq(太平)*frq(淡) ∴选择切分结果W=太/平淡/ 中文文本信息处理的原理与应用基于词频（续2）缺陷及改进单纯使用词频信息，没有考虑到词性及词义信息，更没有考虑到不同词性和词义之间的概率转移关系，错误率较高。对于低频字将永远不能正确切分。例：他的确切菜了他/ 的/ 确切/ 菜/ 了/ （错误）用词性标注或概念标注方法分别计算两种切词路径的最大概率值，从中选取概率值较大的词串作为切分结果。高频字，导致frq(的)*frq(确切) frq(的确)*frq(切) 中文文本信息处理的原理与应用基于统计的分词歧义消解基于词频基于互信息和t-测试差中文文本信息处理的原理与应用基于互信息和t-测试差处理对象交叉型歧义切分字段统计来源未经加工的生语料最大特点值获取（统计）过程的完全自动化中文文本信息处理的原理与应用基于互信息和t-测试差（续1）三个概念互信息 t-测试 t-测试差中文文本信息处理的原理与应用基于互信息和t-测试差（续2）互信息对有序汉字串xy,汉字x、y之间的互信息定义为：注：N-汉语语料库字容量；r(x,y)-x和y邻接同现的次数；r(x)-x独立出现的次数；r(y)-y独立出现的次数 ①I(x;y)0时，x、y之间具有可信结合关系，值越大，结合度越强； ②I(x;y)≈0时，x、y之间的结合关系不明确； ③I(x;y)0时，x、y之间基本没有结合关系，值越小，结合度越弱。中文文本信息处理的原理与应用基于互信息和t-测试差（续3） t-测试对有序汉字串xyz,汉字相对于x及z的t-测试定义为：中文文本信息处理的原理与应用基于互信息和t-测试差（续4） t-测试 ① 时，y有与z相连的趋势，值越大，趋势越强； ② 时，不反映任何趋势； ③ 时，y有与x相连的趋势，值越小，趋势越强。注：不利之处在于t-测试是挂靠在汉字上的，而不是挂靠于两个汉字之间的位置。中文文本信息处理的原理与应用基于互信息和t-测试差（续5） t-测试(例子) “球公开” I(球;公)=I(公;断)=3.2 “球”倾向于与“网”相连 “公”倾向于与“开”相连结论： “球公”之间倾向于断，而“公开”之间倾向于连。中文文本信息处理的原理与应用基于互信息和t-测试差（续6） t-测试差对有序汉字串vxyw,汉字x、y之间的t-测试差定义为： ①Δt(x;y)0时，x、y之间倾向于连； ②Δt(x;y)=0时，不反映任何倾向； ③Δt(x;y)0时，x、y之间倾向于断。中文文本信息处理的原理与应用基于互信息和t-测试差（续7）基本思想设交集歧义字段JS:a1…aib1…bmc1…cn,存在两种切分方案： seg1:a1…bm|c1…cn和seg2:a1…ai|b1…cn；方案的选择?字bm,c1的断点pt1及字ai,b1的断点pt2的选择考虑四个参量：I(pt1)、I(pt2)、Δt(p

您可能关注的文档

文档评论（0）

lizhencai0920 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6100124015000001

1亿VIP精品文档

更多 >

《中文文本信息处理》第三章分词歧义消解.ppt