《统计自然语言处理与信息检索》第4讲搭配.pptVIP

《统计自然语言处理与信息检索》第4讲搭配.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 皮尔逊卡方检验 (1) t检验假设数据的先验分布是正态分布 检验不要求正态分布 比较观测频率和期望频率,以验证独立性。如果差别很大,则可以拒绝独立的零假设H0 皮尔逊卡方检验 (2) 接受H0,new 和 companies 是独立出现的! 如何计算期望值 例如,表单元(1,1)的期望频率是计算new作为二元组的第一个单词的边缘分布,乘以companies作为二元组的第二个单词的边缘分布,再乘以语料库中二元组的总数。 检验从理论上讲适用于各种大小的表,对于2×2的表: 皮尔逊卡方检验 (3) 对齐语料中翻译对的识别 数值59 表示在对齐的英语句子和法语句子中, cow和 vache 的同现次数。 拒绝 H0,(cow, vache) 是一个翻译对。 cow vache 59 6 8 570934 皮尔逊卡方检验 (4) 衡量不同语料库的相似度 (Kilgarriff et al., 1998) H0 :两个语料库是从相同的来源抽取出来的 Corpus 1 Corpus 2 Word1 60 9 Word2 500 76 Word3 124 20 … … … 有关 t 检验和卡方检验的总结 在检验词语的固定搭配时,t 检验和卡方检验的结果差别并不是很大。表5.6。 与 t 检验不同,卡方检验在概率值比较大的情况下同样适用,这种情况往往不符合 t 检验所要求的正态分布 卡方检验的不足之处在于当统计出的数值很小时,结果的说服力不是很强。如果样本容量小于20,或者尽管在20和40之间,但是表单元的期望值小于5,则最好不用卡方检验(Snedecor and Cochran, 1989:127) 似然比 (1) 更适合处理稀疏数据 针对二元组出现频率的两个可选假设 (Dunning 1993) H1 = P(w2|w1) = P(w2| ? w1) = p (独立) H2 = P(w2|w1) = p1 ? p2 = P(w2| ? w1) (非独立) log ? = log ( L(H1) / L(H2) ) c1, c2, c12 是 w1, w2, w1w2,的出现次数,并假设服从二项式分布: 似然比 (2) 似然比 (3) 似然比 (4) 似然比更适合处理稀疏数据! 似然比有一个清晰直观的解释 在上表中, 的值越大,意味着 的取值越小,也就说,接受假设H2,拒绝假设H1的可能性也就越大。 方案4:互信息 (1) 在已知 y的情况下,获得的有关x的信息量 点互信息 互信息 (2) 这个信息量的含义:如果知道了Ayatollah 在语料库中的 i 位置出现,那么Ruhollah 在语料库中的 i+1 位置出现的信息量就增加了18.38比特。 互信息(3) English: house of commons French: chambre de communes 问题1: information gain ? direct dependence 互信息(4) 问题2: 数据稀疏 互信息(5) 对于完全相关的情况,有: 对于完全独立的情况,有: 结论:(1)互信息是衡量独立性的一种很好方法; (2)不是衡量依赖性的好方法,因为对于依赖性来 说,互信息的值是由单独词的频率决定的。 提纲 介绍 发现搭配的方案 频率 均值和方差 假设检验 互信息 搭配的应用 应用 词典编著 (1)从大规模语料库中识别搭配,作为词典条目; (2)从平衡语料库中揭示最频繁的词语组合用法; (3)确定意义相近词汇之间的细微区别; (4)获得领域或主题特有的词汇或短语。 (5)翻译对的识别…… 应用 信息检索 如果用户查询和文档之间的相似性可以用常用的搭配而不是常用词来确定,那么检索的准确率会提高 自然语言生成 跨语言信息检索 Thanks! * * * * * * * * * 做个系统测试一下。 * * * 第四讲:词语搭配 提纲 介绍 发现搭配的方案 频率 均值和方差 假设检验 互信息 搭配的应用 什么是搭配? 搭配是由两个或两个以上的词所组成的语言表示,相当于说某些事情的习惯方式(书P94) 两个或多个词序列,具有句法和语义单位的特性,并且它的准确无歧义的意思或含义往往不能直接由它的组成部分的意思和含义得出 例子 名词短语 strong tea vs. powerful tea vs. powerful drug 动词短语 make

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档