《中文文本信息处理》第四章未登录词获取.ppt

下载文档 降价啦

8
0
约1.1万字
约 65页
2018-03-22 发布于福建
举报
版权申诉
保障服务

《中文文本信息处理》第四章未登录词获取.ppt

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文文本信息处理的原理与应用无词典分词模型（续1）中文文本信息处理的原理与应用无词典分词模型（续2）中文文本信息处理的原理与应用无词典分词模型（续3）中文文本信息处理的原理与应用中文自动分词新思路解决中文分词问题的一些新思路：分词歧义消解和未登录词识别同时解决的方法。见：ChineseWord Segmentation and Named Entity Recognition: A Pragmatic Approach, Jianfeng Gao et al.2006. 运用词位标注法进行自动分词的方法，不同于传统的方法，该方法在中文bakeoff上取得了很大的成功，之后的一系列方法很多是在这个方法的基础上发展和改进的。见： Chinese Word Segmentation as Character Tagging, Nianwen Xue, 2003 中文文本信息处理的原理与应用 Thanks 中文文本信息处理的原理与应用基于统计学的未登录词获取基于频率的方法基于均值和方差的方法基于假设检验的方法基于互信息的方法中文文本信息处理的原理与应用基于假设检验的方法一个问题由频率、均值和方差等信息判断得到的二元组（短语）是否可靠，是否具有偶然性？评价一个事件是否偶然事件，一般用统计学的假设检验方法。对于寻找搭配（词）而言，零假设是：假设两个词w1和w2是独立的，则他们偶然在一起出现的概率是中文文本信息处理的原理与应用基于假设检验的方法（续1） t检验中文文本信息处理的原理与应用基于假设检验的方法（续2）例：在我们的语料库中，new出现15828次，companies出现4675次，new companies出现了8次，并且总共词次。如果零假设为真，那么随机产生二元词组，指定new companies的值为1，其他情况下的值为0的过程，就是一个有效的Bernoulli判据。中文文本信息处理的原理与应用基于假设检验的方法（续3）中文文本信息处理的原理与应用基于假设检验的方法（续4） CHI-2检验中文文本信息处理的原理与应用基于假设检验的方法（续5）中文文本信息处理的原理与应用基于假设检验的方法（续6）当检验单词的固定搭配时，两者的结果差别并不是很大 t检验它认为数据满足正态分布，而一般情况下该假设和真实数据分布并不一致。 CHI-2检验概率值比较大的情况下适用，这种情况往往不符合t检验要求的正态分布。不足在于当统计出的数值很小时，结果的说服力不是很强。中文文本信息处理的原理与应用基于统计学的未登录词获取基于频率的方法基于均值和方差的方法基于假设检验的方法基于互信息的方法中文文本信息处理的原理与应用基于（点）互信息的方法中文文本信息处理的原理与应用本章主要内容关于未登录词基于统计学的未登录词获取方法中文姓名的自动识别分词歧义消解和未登录词识别的统一中文文本信息处理的原理与应用中文姓名的自动辨识为什么要辨识姓名？不同于印欧语言姓名以大写字母开头，中文姓名没有标志；许多姓名中使用的字也用在普通词中；如果姓名识别错误，将给分词带来很大的影响。姓名辨识中的可用资源：中文姓名的用字规律；姓名用字的使用频率；姓名上下文。中文文本信息处理的原理与应用姓氏频率表与名字用字频率表姓氏频率表(XFL) 姓氏仅729个，分布不均匀，前5大姓“王、张、李、赵、刘”占32%，前365个姓占99%，其余364个姓氏仅占不到1%。某些姓氏可用作单字词，如：王、黄、马等名字用字频率表(MCFL) 3345个名字用字，分布较缓，分散、范围广某些字既可做姓氏，又可做名字，如“林、方” 名字用字的构词能力不同中文文本信息处理的原理与应用中文姓名的概率分布辨识方法两类中文姓名：单名：sn=x（姓氏）m1（名字首字）双名：pn= x（姓氏）m1（名字首字）m2（名字末字） fx(x)：姓氏使用频率 fm(m1\m2)：名字用字使用频率姓名概率估值：p(sn)=fx(x)*fm(m1); p(cn)= fx(x)*fm(m1)*fm(m2); 计算姓名样本库中所有姓名的概率估值，可以设定概率估值阈值，舍弃那些概率估值小于阈值的候选名字。中文文本信息处理的原理与应用具有指示意义的上下文信息一些上下文信息有助于姓名的辨识，主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。称谓：如 “xxx阁下”，“战士王xx”，“xxx先生”，“市长xx

您可能关注的文档

文档评论（0）

lizhencai0920 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6100124015000001

1亿VIP精品文档

更多 >

《中文文本信息处理》第四章未登录词获取.ppt