- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 无词典分词模型(续1) 中文文本信息处理的原理与应用 无词典分词模型(续2) 中文文本信息处理的原理与应用 无词典分词模型(续3) 中文文本信息处理的原理与应用 中文自动分词新思路 解决中文分词问题的一些新思路: 分词歧义消解和未登录词识别同时解决的方法。见:ChineseWord Segmentation and Named Entity Recognition: A Pragmatic Approach, Jianfeng Gao et al.2006. 运用词位标注法进行自动分词的方法,不同于传统的方法,该方法在中文bakeoff上取得了很大的成功,之后的一系列方法很多是在这个方法的基础上发展和改进的。见: Chinese Word Segmentation as Character Tagging, Nianwen Xue, 2003 中文文本信息处理的原理与应用 Thanks 中文文本信息处理的原理与应用 基于统计学的未登录词获取 基于频率的方法 基于均值和方差的方法 基于假设检验的方法 基于互信息的方法 中文文本信息处理的原理与应用 基于假设检验的方法 一个问题 由频率、均值和方差等信息判断得到的二元组(短语)是否可靠,是否具有偶然性? 评价一个事件是否偶然事件,一般用统计学的假设检验方法。 对于寻找搭配(词)而言,零假设是:假设两个词w1和w2是独立的,则他们偶然在一起出现的概率是 中文文本信息处理的原理与应用 基于假设检验的方法(续1) t检验 中文文本信息处理的原理与应用 基于假设检验的方法(续2) 例:在我们的语料库中,new出现15828次,companies出现4675次,new companies出现了8次,并且总共词次。如果零假设为真,那么随机产生二元词组,指定new companies的值为1,其他情况下的值为0的过程,就是一个有效的Bernoulli判据。 中文文本信息处理的原理与应用 基于假设检验的方法(续3) 中文文本信息处理的原理与应用 基于假设检验的方法(续4) CHI-2检验 中文文本信息处理的原理与应用 基于假设检验的方法(续5) 中文文本信息处理的原理与应用 基于假设检验的方法(续6) 当检验单词的固定搭配时,两者的结果差别并不是很大 t检验 它认为数据满足正态分布,而一般情况下该假设和真实数据分布并不一致。 CHI-2检验 概率值比较大的情况下适用,这种情况往往不符合t检验要求的正态分布。不足在于当统计出的数值很小时,结果的说服力不是很强。 中文文本信息处理的原理与应用 基于统计学的未登录词获取 基于频率的方法 基于均值和方差的方法 基于假设检验的方法 基于互信息的方法 中文文本信息处理的原理与应用 基于(点)互信息的方法 中文文本信息处理的原理与应用 本章主要内容 关于未登录词 基于统计学的未登录词获取方法 中文姓名的自动识别 分词歧义消解和未登录词识别的统一 中文文本信息处理的原理与应用 中文姓名的自动辨识 为什么要辨识姓名? 不同于印欧语言姓名以大写字母开头,中文姓名没有标志; 许多姓名中使用的字也用在普通词中; 如果姓名识别错误,将给分词带来很大的影响。 姓名辨识中的可用资源: 中文姓名的用字规律; 姓名用字的使用频率; 姓名上下文。 中文文本信息处理的原理与应用 姓氏频率表与名字用字频率表 姓氏频率表(XFL) 姓氏仅729个,分布不均匀,前5大姓“王、张、李、赵、刘”占32%,前365个姓占99%,其余364个姓氏仅占不到1%。 某些姓氏可用作单字词,如:王、黄、马等 名字用字频率表(MCFL) 3345个名字用字,分布较缓,分散、范围广 某些字既可做姓氏,又可做名字,如“林、方” 名字用字的构词能力不同 中文文本信息处理的原理与应用 中文姓名的概率分布 辨识方法 两类中文姓名: 单名:sn=x(姓氏)m1(名字首字) 双名:pn= x(姓氏)m1(名字首字)m2(名字末字) fx(x):姓氏使用频率 fm(m1\m2):名字用字使用频率 姓名概率估值:p(sn)=fx(x)*fm(m1); p(cn)= fx(x)*fm(m1)*fm(m2); 计算姓名样本库中所有姓名的概率估值,可以设定概率估值阈值,舍弃那些概率估值小于阈值的候选名字。 中文文本信息处理的原理与应用 具有指示意义的上下文信息 一些上下文信息有助于姓名的辨识,主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。 称谓:如 “xxx阁下”,“战士王xx”,“xxx先生”,“市长xx
您可能关注的文档
- 《旅游可持续发展》课程教学课件 04-生态旅游的质量控制.ppt
- 《旅游可持续发展》课程教学课件 05-生态旅游政策与规划.ppt
- 《旅游可持续发展》课程教学课件 07-香港郊野公园:都市里的生态旅游.ppt
- 《旅游可持续发展》课程教学课件 08-香港城市发展·土地制度·郊野公园.ppt
- 《旅游可持续发展》课程教学课件 09-旅游环境影响评价(EIA).ppt
- 《旅游可持续发展》课程教学课件 10-旅游环境容量与承载力问题.ppt
- 《旅游可持续发展》课程教学课件 11-雨崩村:自愿、自主、自享的旅游发展.ppt
- 《旅游市场营销学》课程教学课件 第八章 旅游产品营销渠道策略.ppt
- 《旅游心理学》课程教学课件 第八章 旅游产品售后服务心理.ppt
- 《旅游心理学》课程教学课件 第二章 旅游者的购买态度与购买决策.ppt
文档评论(0)