本科毕业设计--基于信息理论的鉴别信息测量.docVIP

下载本文档

0
0
约 31页
2016-12-01 发布于辽宁
举报
版权申诉

本科毕业设计--基于信息理论的鉴别信息测量.doc

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

毕业论文基于信息理论的鉴别信息测量 [摘要] 至今，在实际应用的合理、明确环境中，我们仍很难解释词所传达的大量鉴别信息的含义，并且将词之间的语义关联程度概念成功且有意义地引入到科学讨论中也不是那么容易的，本文就尝试完成这个任务。我们试图回答两个重要问题：1)鉴别信息中词所所传达的信息是什么以及我们如何测量它？2）什么是词之间的关联性以及怎样去判断？我们专注于第一个问题的研究，基于多种信息测量我们对鉴别测量进行了深入地调查研究，这个研究如今已经在很多领域得到了应用。根据各自的鉴别测量，关联性度量可以自然地确定。为阐明存在于关联性度量的潜在问题，一些关键点被提出，并提出了一些解决方法。本文提供了两个在文本挖掘和信息检索方面应用的例子。研究的目的的本文的一个组成部分，它是建立一个以鉴别信息的测量为核心的统一理论框架，并实现有效的语义关联的测量。由于它的普遍性，我们的方法将被期待在多个领域被广泛应用。 [索引词] 统计语义分析，鉴别信息的测量，语义关联性的测量，识别信息术语，关键词提取，文本挖掘，信息检索 1.引言本研究中主要有两个点:词的鉴别信息测量和词之间的语义关联性度量。 1.1鉴别信息的测量词之间的鉴别信息测量（MDI）问题在科学研究的很多领域充当了重要的角色，其中包括知识表达、机器学习和翻译、计算机语言学、自然语言处理、文本挖掘和注释、信息提取和检索、观点挖掘和情感分析、文件分类和综述、生物信息学和化学信息学等。本文中所用的词鉴别信息指的是属于某一种类关于确定主题的兴趣点并拒绝其他种类的词所传达的信息量。一个信息词，也常称为一个好的鉴别器，它对分类文件应该有很好的性能。文件分类是基于它的主题内容将每个文件分到一个或多个类别中。为简化我们的讨论，本文中所用的分类是指基于一群不相关主题的相似点而将文件分类的过程，每个已知类别的文件都应该属于一类并仅仅属于这一类。根据这个观点，类别应该能明确地判定，类别之间相互排斥，文件分类是信息科学的另一个基本问题，本文的研究是一个独特但相关的工作。词t’比其他词含有更多的信息量，这个观点很含糊。直觉上，具有更强识别力的词应该被认为具有更多的信息，这个观点是可以接受的。统计学上，具有更强识别力的词通常对信息的期望结果贡献更多。词可能贡献的程度被当作是词的信息量测量策略，用于计算程度的公式称为识别力测量。能够计算的潜在数学结构是从信息理论中提取出的散度测量，他们从词的分布情况判断预期散度，因此它为估算预期信息量提供一个有力的工具。 1.2 语义关联性的测定词之间的语义测定（MSR）问题在多个研究领域都有了一段很长的历史，我们预期基于词典的算法比基于全集的算法在捕获同义词方面将得到更好的效果，因为词典（也就是词汇网络[1][2]）提供了只隐含在体内的同义词信息，但是这个实验结果并不支持我们的直觉[3]，原因可能是基于全集的方法通常能确定有相似同现模型的词，而并确定的词是相关的或互相相似，或者互相是完全相反的[4]。语义关联性比语义相似性更具有普遍性。相似的词由于它们词义的相似（同义）通常被认为是相关的；不相似的词通过词典的关系（上下文的关系、部分-整体的关系等），或者从语料库[5]中得到的同现统计也让其在语义上有关系。实际上，不见得一个词所支持的信息只出现在一个类别中。本文所研究的主要问题是，在所有类别中的每个词之间的鉴别中最强支持类的鉴别（简称为ssc）。词t’指的是一些词t与其他词相比更紧密，这个说法还是很含糊。直观上，互相紧密联系的词应该在同类文件的相似上下文同时出现，这个说法是可接受的。统计学上，密切相关的词在分类上彼此往往有相同的最强支持类，并比其他词提供更高的相关性值到最强支持类中。潜在的正式分析是MDI，它为每个词确定其最强支持类，并测量词关于最强支持类的相关值，因而提供测量词之间的关联性的有效方法。计算应用程序通常要求语义关联，而不仅仅是语义相似度[6]。许多应用程序被当作MSR是其主要关系的情况，例如，问答[7]、修饰语对[8]、同义词识别[9]、语义关系相似性测量[3]、语篇衔接的测量[10]、潜在的语义分析[11]、文本挖掘[12]和词义消歧[13]。我们努力地提出了多种相关性测定方法：一些是应用了词典（手动建立词库）[14][15],一些是应用了共现统计(非监督学习语料库)[16][17][18][19][20][21][22][23][24][25][26][27],和一些是应用了混合技术(结合统计和词汇的综合信息)[28][29][30][25][31]。 1.3 本文的研究目的在实际应用的合理、明确环境中，我们仍很难解释词所传达的大量鉴别信息的含义，并且将词之间的语义关