《中文文本信息处理》 第四章 未登录词获取.ppt

《中文文本信息处理》 第四章 未登录词获取.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 无词典分词模型(续1) 中文文本信息处理的原理与应用 无词典分词模型(续2) 中文文本信息处理的原理与应用 无词典分词模型(续3) 中文文本信息处理的原理与应用 中文自动分词新思路 解决中文分词问题的一些新思路: 分词歧义消解和未登录词识别同时解决的方法。见:ChineseWord Segmentation and Named Entity Recognition: A Pragmatic Approach, Jianfeng Gao et al.2006. 运用词位标注法进行自动分词的方法,不同于传统的方法,该方法在中文bakeoff上取得了很大的成功,之后的一系列方法很多是在这个方法的基础上发展和改进的。见: Chinese Word Segmentation as Character Tagging, Nianwen Xue, 2003 中文文本信息处理的原理与应用 Thanks 中文文本信息处理的原理与应用 基于统计学的未登录词获取 基于频率的方法 基于均值和方差的方法 基于假设检验的方法 基于互信息的方法 中文文本信息处理的原理与应用 基于假设检验的方法 一个问题 由频率、均值和方差等信息判断得到的二元组(短语)是否可靠,是否具有偶然性? 评价一个事件是否偶然事件,一般用统计学的假设检验方法。 对于寻找搭配(词)而言,零假设是:假设两个词w1和w2是独立的,则他们偶然在一起出现的概率是 中文文本信息处理的原理与应用 基于假设检验的方法(续1) t检验 中文文本信息处理的原理与应用 基于假设检验的方法(续2) 例:在我们的语料库中,new出现15828次,companies出现4675次,new companies出现了8次,并且总共词次。如果零假设为真,那么随机产生二元词组,指定new companies的值为1,其他情况下的值为0的过程,就是一个有效的Bernoulli判据。 中文文本信息处理的原理与应用 基于假设检验的方法(续3) 中文文本信息处理的原理与应用 基于假设检验的方法(续4) CHI-2检验 中文文本信息处理的原理与应用 基于假设检验的方法(续5) 中文文本信息处理的原理与应用 基于假设检验的方法(续6) 当检验单词的固定搭配时,两者的结果差别并不是很大 t检验 它认为数据满足正态分布,而一般情况下该假设和真实数据分布并不一致。 CHI-2检验 概率值比较大的情况下适用,这种情况往往不符合t检验要求的正态分布。不足在于当统计出的数值很小时,结果的说服力不是很强。 中文文本信息处理的原理与应用 基于统计学的未登录词获取 基于频率的方法 基于均值和方差的方法 基于假设检验的方法 基于互信息的方法 中文文本信息处理的原理与应用 基于(点)互信息的方法 中文文本信息处理的原理与应用 本章主要内容 关于未登录词 基于统计学的未登录词获取方法 中文姓名的自动识别 分词歧义消解和未登录词识别的统一 中文文本信息处理的原理与应用 中文姓名的自动辨识 为什么要辨识姓名? 不同于印欧语言姓名以大写字母开头,中文姓名没有标志; 许多姓名中使用的字也用在普通词中; 如果姓名识别错误,将给分词带来很大的影响。 姓名辨识中的可用资源: 中文姓名的用字规律; 姓名用字的使用频率; 姓名上下文。 中文文本信息处理的原理与应用 姓氏频率表与名字用字频率表 姓氏频率表(XFL) 姓氏仅729个,分布不均匀,前5大姓“王、张、李、赵、刘”占32%,前365个姓占99%,其余364个姓氏仅占不到1%。 某些姓氏可用作单字词,如:王、黄、马等 名字用字频率表(MCFL) 3345个名字用字,分布较缓,分散、范围广 某些字既可做姓氏,又可做名字,如“林、方” 名字用字的构词能力不同 中文文本信息处理的原理与应用 中文姓名的概率分布 辨识方法 两类中文姓名: 单名:sn=x(姓氏)m1(名字首字) 双名:pn= x(姓氏)m1(名字首字)m2(名字末字) fx(x):姓氏使用频率 fm(m1\m2):名字用字使用频率 姓名概率估值:p(sn)=fx(x)*fm(m1); p(cn)= fx(x)*fm(m1)*fm(m2); 计算姓名样本库中所有姓名的概率估值,可以设定概率估值阈值,舍弃那些概率估值小于阈值的候选名字。 中文文本信息处理的原理与应用 具有指示意义的上下文信息 一些上下文信息有助于姓名的辨识,主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。 称谓:如 “xxx阁下”,“战士王xx”,“xxx先生”,“市长xx

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档