《统计自然语言处理与信息检索》第6讲词汇获取.pptVIP

下载本文档

3
0
约2.05万字
约 58页
2017-01-07 发布于浙江
举报
版权申诉

《统计自然语言处理与信息检索》第6讲词汇获取.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 向量方法计算语义相似性的两个优点就是表示上很简洁，计算上很简单。该例子使通过对new york times corpus进行统计计算cosine similarity得出的，从中可以看出，garlic的最近邻都和它的意思比较相近，除了cup，fell也还可以，而从engineered可以看出这种统计计算的语料库相关性，因为该语料库多为基因学方面的。Alfred的最近邻则多是同其经常共现的一些名字，这在一定程度上反映的是pos的相似性，而不是语义的相似性，至于simple的最近邻几乎都是比较随机出现的一些词和simple没什么直接关联，主要是因为simple在语料库中是经常被使用的一个高频词，共现的信息对于刻画这种词的语义相似性并不是很有用。 * 之所以要介绍概率的方法求解语义的相似性，主要是基于向量空间的这些方法中，只有cosine可以应用于实数值的向量，其他的都只是针对二值向量，而且cosine的方法也有其自身的问题，就是计算cosine要求的前提是要在欧氏空间下。然而欧氏空间对于以概率值为元素的向量并不是一个好的选择，我们可以看到，在欧氏距离中0.1和0的距离与0.9和1的距离是一样的，但是，在第一种情况下，概率事件的差别是不可能与十分之一，而第二种情况中，两个概率事件大约只有10%的差别。而目前计算语义相似性多是以概率形式表示的，因此需要介绍一下概率计算语义相似性的方法。 * 之所以称之为dis-similarity，是因为所有的这些方法都是计算出来的值越小说明越相似。 Kl距离（散度）（相对熵）在前面介绍选择偏向（selectional preferrence）的时候介绍过，在这里用来衡量两个概率分布的相似性，公式的基本含义就是如果真实的分布为p，我们假设采用了q分布，那么会有多少信息丢失，丢失的信息越少，两个分布越相似。Kl距离的使用有两个主要的问题，一个是如果qi为0，pi不为0，则的得到的值将为无穷大，然而这种情况是经常出现的，尤其是利用极大似然估计的时候，另一个问题是该测度不是对称的，D(p,q)不等于D(q,p)，这与我们对于两个词的语义相似性的直觉是不相符的，如果两个词语义相似那么应该和顺序是无关的。信息半径Information radius的方法利用了两个分布的平均分布来描述这两个分布，公式中计算利用平均分布描述后共丢失了多少信息量。该方法是对称的，irad(p,q)=irad(q,p)，并且没有无穷大值的问题。 L1 norm范式是两个分布的差异的累加，反映了两个分布中不同的部分所占的比重。该方法对于任意的分布p和q都具有对称性。 * 词汇的获取在统计自然语言处理中起着关键的作用。词汇自动获取具有重要的意义，因为 1.人工构建词汇资源耗费大量的人力、物力，而且人对于超大量信息的收集并不是很擅长。 2.当前许多词汇资源都是面向人类的应用设计的，其中缺失大量进行机器自动处理时需要的信息，毕竟人是有很多先验知识的，而机器没有。而且目前词典资源大多缺乏词条的上下文信息，即时是人也不可能单靠一步双语词典就学会一门语言何况机器。 3.还有一个最重要的原因就是现代语言的多产性，现代语言变化很快，每年都有大量的新词涌现，即时现有的词也会有一些新的意思，新的用法的出现，因此词汇的自动获取是至关重要的。词汇获取的一个重要的趋势就是努力寻找先验的知识源来约束词汇获取的过程。其中一个重要的知识源就是语言学的理论方面的知识。 * 正确率就是你选出的部分中正确的所占的比例，召回率就是你选出的部分中的正确的部分占目标集合的比例（即你应该选出的部分），将正确率和召回率做一个折衷就得到了F-measure，fallout是你错误选出的部分占所有反例的比例,它有时也用于衡量一个系统避免犯错误的难度有多大，如果集合中非目标集合（tn）所占的量很大，将会不可避免的导致被错误选出来的会增多，从而导致正确率的降低。 * 此图为了说明F-measure较之常规的正确度（accuracy）的标准要有效的多。 * 动词的子范畴（Verb subcategorization）动词可以被划分为不同的句法范畴，也就是说，动词可以用不同的句法形式来表示自己的语义对象。我们把根据动词所允许搭配的补足成分的类型（名词短语，介词短语等）对动词进行分类称之为子范畴。我们总是对于某个特定的补足语来谈一个动词的子范畴。 * 而所谓的动词的子范畴框架（subcategorization frame）是指可以和一个动词一同出现的论元的集合称之为该动词的子范畴框架. 例如下面的这些例子：动词为Greet，和它一同出现的论元为主语和宾语，都可以看作是名词短语，所以在该句中greet的框架为Np,np * 为什么称为子范畴呢，因为如果我们把可以带有某一特定语义论