基于信息理论鉴别信息测量.docVIP

下载本文档

6
0
约1.74万字
约 31页
2017-09-01 发布于安徽
举报
版权申诉

基于信息理论鉴别信息测量.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于信息理论的鉴别信息测量蔡镝’比其他词含有更多的信息量，这个观点很含糊。直觉上，具有更强识别力的词应该被认为具有更多的信息，这个观点是可以接受的。统计学上，具有更强识别力的词通常对信息的期望结果贡献更多。词可能贡献的程度被当作是词的信息量测量策略，用于计算程度的公式称为识别力测量。能够计算的潜在数学结构是从信息理论中提取出的散度测量，他们从词的分布情况判断预期散度，因此它为估算预期信息量提供一个有力的工具。 1.2 语义关联性的测定词之间的语义测定（MSR）问题在多个研究领域都有了一段很长的历史，我们预期基于词典的算法比基于全集的算法在捕获同义词方面将得到更好的效果，因为词典（也就是词汇网络[1][2]）提供了只隐含在体内的同义词信息，但是这个实验结果并不支持我们的直觉[3]，原因可能是基于全集的方法通常能确定有相似同现模型的词，而并确定的词是相关的或互相相似，或者互相是完全相反的[4]。语义关联性比语义相似性更具有普遍性。相似的词由于它们词义的相似（同义）通常被认为是相关的；不相似的词通过词典的关系（上下文的关系、部分-整体的关系等），或者从语料库[5]中得到的同现统计也让其在语义上有关系。实际上，不见得一个词所支持的信息只出现在一个类别中。本文所研究的主要问题是，在所有类别中的每个词之间的鉴别中最强支持类的鉴别（简称为ssc）。词t’指的是一些词t与其他词相比更紧密，这个说法还是很含糊。直观上，互相紧密联系的词应该在同类文件的相似上下文同时出现，这个说法是可接受的。统计学上，密切相关的词在分类上彼此往往有相同的最强支持类，并比其他词提供更高的相关性值到最强支持类中。潜在的正式分析是MDI，它为每个词确定其最强支持类，并测量词关于最强支持类的相关值，因而提供测量词之间的关联性的有效方法。计算应用程序通常要求语义关联，而不仅仅是语义相似度’传达的鉴别信息是什么并怎样去测量它？ 2.词t’和t之间有怎样的关联性并怎样去测量它？我们首先介绍两个基本概念的正式定义：1）词的鉴别信息2）词之间的关联性。接着，我们通过正式判读集中于MDI和按照从分类测量中得到的鉴别措施而对第一个概念进行定量表达。然后，我们集中到MSR，根据各自的鉴别措施给出了一系列关联性测定方法的表达。我们也突出鉴别测量的性能，强调从MDI到MSR应用的问题，并给出相应的解决方法。图1 C类的例子本文的贡献有三点：第一，我们为两个基本的概念建立了表示法并引进了正式定义（第2、3节）。第二，我们集中于MDI，并讨论了鉴别测量方法的性能和阐述(第4节)，接着我们集中在MSR，并为关联性测量给出了表示法（第5节）。第三，我们考虑了两个实际应用实例（第6节），最后我们得出结论（第7节）。 2.词的鉴别信息这一节通过讨论词的鉴别信息的基本概念，尝试回答在1.3节提出的第一个问题。这个答案对鉴别测量进行了全面的定义，则这个定义将贯穿整个文章。 2.1 一个设想首先，我们引入符号。设想,是不相关的成对出现的主体，设C为文件的语料库且，并c是C的一类，并。试想是主体的所有文件的一类，所有的类别在C区形成一个分类，也就是说，，其中。图1就是C类的一个例子。设t是一个词，V是在C中指出各自文件的所有词的一个词汇表且，设为包含至少在中出现一次的词的分词汇表，其中。通常，其中。正如前面所提到的，实际上每个中的t不可能只传达支持C中的信息，为了回答第一个问题，首先我们必须提出下列的假设：一个信息词包含的信息不仅支持一种文件类，而且支持其他的类别。词对支持的类别所包含的信息量是可观的或不可观的。拥有最大可观量的类别称为这个类别中词的最强支持类（ssc）。很明显，如果我们知道信息中包含的数量，我们就很容易识别每个词t的ssc，其中。但是，似乎很难估计每个类别中每个词所包含的信息量。在的上下文环境中，我们就主要判断t有多少信息，其中。正如前面所提到的，词有较强的识别力，也就是说它比其他词在预期信息量上贡献更多，则它应该被当作是更有信息的。因此，如果我们有鉴别措施去估计词的贡献程度，则我们就有方法去测量词的信息量和定量词所含有的信息量。 2.2 鉴别测量的一般定义测量词的鉴别能力的第一次无疑是估计预期的散度（也就是预期的信息量），它是由每个词对期望散度的贡献所引出的，隐含在其中的分类准则如下[32]：散度的测量应该不依赖于附加物或去掉与分类不相关的词。所说与分类不想关的词在这里是指它们的分类概率相等。现在设是互不相容的，就是假设——词t传达的上下文信息（）。为定量t依照它的鉴别信息支持的信息量，我们仅仅需要作一个假设（声明而非正