【精品】基于信息理论的鉴别信息测量_毕业设计
(此文档为word格式,下载后您可任意编辑修改!)
毕业论文
基于信息理论的鉴别信息测量
[摘要] 至今,在实际应用的合理、明确环境中,我们仍很难解释词所传达的大量鉴别信息的含义,并且将词之间的语义关联程度概念成功且有意义地引入到科学讨论中也不是那么容易的,本文就尝试完成这个任务。我们试图回答两个重要问题:1)鉴别信息中词所所传达的信息是什么以及我们如何测量它?2)什么是词之间 的关联性以及怎样去判断?我们专注于第一个问题的研究,基于多种信息测量我们对鉴别测量进行了深入地调查研究,这个研究如今已经在很多领域得到了应用。根据各自的鉴别测量,关联性度量可以自然地确定。为阐明存在于关联性度量的潜在问题,一些关键点被提出,并提出了一些解决方法。本文提供了两个在文本挖掘和信息检索方面应用的例子。研究的目的的本文的一个组成部分,它是建立一个以鉴别信息的测量为核心的统一理论框架,并实现有效的语义关联的测量。由于它的普遍性,我们的方法将被期待在多个领域被广泛应用。
[索引词] 统计语义分析,鉴别信息的测量,语义关联性的测量,识别信息术语,关键词提取,文本挖掘,信息检索
1.引言
本研究中主要有两个点:词的鉴别信息测量和词之间的语义关联性度量。
1.1鉴别信息的测量
词之间的鉴别信息测量(MDI)问题在科学研究的很多领域充当了重要的角色,其中包括知识表达、机器学习和翻译、计算机语言学、自然语言处理、文本挖掘和注释、信息提取和检索、观点挖掘和情感分析、文件分类和综述、生物信息学和化学信息学等。
本文中所用的词鉴别信息指的是属于某一种类关于确定主题的兴趣点并拒绝其他种类的词所传达的信息量。一个信息词,也常称为一个好的鉴别器,它对分类文件应该有很好的性能。
文件分类是基于它的主题内容将每个文件分到一个或多个类别中。为简化我们的讨论,本文中所用的分类是指基于一群不相关主题的相似点而将文件分类的过程,每个已知类别的文件都应该属于一类并仅仅属于这一类。根据这个观点,类别应该能明确地判定,类别之间相互排斥,文件分类是信息科学的另一个基本问题,本文的研究是一个独特但相关的工作。
词t’比其他词含有更多的信息量,这个观点很含糊。直觉上,具有更强识别力的词应该被认为具有更多的信息,这个观点是可以接受的。统计学上,具有更强识别力的词通常对信息的期望结果贡献更多。词可能贡献的程度被当作是词的信息量测量策略,用于计算程度的公式称为识别力测量。能够计算的潜在数学结构是从信息理论中提取出的散度测量,他们从词的分布情况判断预期散度,因此它为估算预期信息量提供一个有力的工具。
1.2 语义关联性的测定
词之间的语义测定(MSR)问题在多个研究领域都有了一段很长的历史,我们预期基于词典的算法比基于全集的算法在捕获同义词方面将得到更好的效果,因为词典(也就是词汇网络[1][2])提供了只隐含在体内的同义词信息,但是这个实验结果并不支持我们的直觉[3],原因可能是基于全集的方法通常能确定有相似同现模型的词,而并确定的词是相关的或互相相似,或者互相是完全相反的[4]。
语义关联性比语义相似性更具有普遍性。相似的词由于它们词义的相似(同义)通常被认为是相关的;不相似的词通过词典的关系(上下文的关系、部分-整体的关系等),或者从语料库[5]中得到的同现统计也让其在语义上有关系。
实际上,不见得一个词所支持的信息只出现在一个类别中。本文所研究的主要问题是,在所有类别中的每个词之间的鉴别中最强支持类的鉴别(简称为ssc)。
词t’指的是一些词t与其他词相比更紧密,这个说法还是很含糊。直观上,互相紧密联系的词应该在同类文件的相似上下文同时出现,这个说法是可接受的。统计学上,密切相关的词在分类上彼此往往有相同的最强支持类,并比其他词提供更高的相关性值到最强支持类中。潜在的正式分析是MDI,它为每个词确定其最强支持类,并测量词关于最强支持类的相关值,因而提供测量词之间的关联性的有效方法。
计算应用程序通常要求语义关联,而不仅仅是语义相似度’传达的鉴别信息是什么并怎样去测量它?
2.词t’和t之间有怎样的关联性并怎样去测量它?
我们首先介绍两个基本概念的正式定义:1)词的鉴别信息2)词之间的关联性。接着,我们通过正式判读集中于MDI和按照从分类测量中得到的鉴别措施而对第一个概念进行定量表达。然后,我们集中到MSR,根据各自的鉴别措施给出了一系列关联性测定方法的表达。我们也突出鉴别测量的性能,强调从MDI到MSR应用的问题,并给出相应的解决方法。
图1 C类的例子
本文的贡献有三点:第一,我们为两个基本的概念建立了表示法并引进了正式定义(第2、3节)。第二
您可能关注的文档
- 《无限召唤》大讲堂:混乱光环.pdf
- 《地球和地球仪》参考课件2.ppt
- 《晏子使楚课时》第二.ppt
- 《最新水泥性能品级检验标准、生产常用数据、计算速查及产品质量缺陷防治实用手册》.pdf
- 《最终幻想4月之归还》图文攻略莉迪亚篇.pdf
- 《最终幻想4:月之归还》流程攻略.doc
- 《时空裂痕》T3副本卡BUG合辑.pdf
- 《有理数》参考教案-掌门1对1.doc
- 《有理数的乘方》-七年级上.doc
- 《有理数的乘除法》文字素材1.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
最近下载
- 2025年中考语文总复习第二部分文学之约专题五文学类文本读写(一题一课).pptx VIP
- 病历书写规范培训ppt课件.pptx VIP
- Dell戴尔Alienware 双模无线游戏耳机 AW720H 用户指南.pdf VIP
- 中国重症肌无力诊断和治疗指南PPT课件.pptx VIP
- 六年级英语阅读理解专项训练20篇.doc VIP
- 学堂在线 雨课堂 学堂云 中国共产党与中华民族伟大复兴 期末考试答案.docx VIP
- 学堂在线 雨课堂 学堂云 中国共产党与中华民族伟大复兴 章节测试答案.docx VIP
- 学堂在线 雨课堂 学堂云 人工智能原理 章节测试答案.docx VIP
- 《病历书写基本规范》PPT课件.pptx VIP
- 学堂在线 雨课堂 学堂云 研究生学术与职业素养讲座 章节测试答案.docx VIP
原创力文档

文档评论(0)