基于数据挖掘的Web信息检索研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
--完美WORD文档DOC格式,可在线免费浏览全文和下载,是一篇优秀的毕业设计论文,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考。

南京航空航天大学 博士学位论文 基于数据挖掘的Web信息检索研究 姓名:徐敏 申请学位级别:博士 专业:计算机应用技术 指导教师:朱梧檟 南京航空航天大学博士学位论文 摘  要 Internet 使人们获取信息更加方便和快捷,但是由于网上的信息浩如烟海, 并且不断快速增长,而其中绝大多数对用户来说是无关的,所以如何在网络中 找到自己所需的信息成了一个重要问题。搜索引擎是在一定程度上帮助人们解 决这个问题,但是它并不能完全满足用户的需求。本文即是在此背景下,针对 目前搜索引擎模型分析,提出一种新的搜索引擎模型,同时利用数据挖掘方法 来解决网络上某些信息检索问题,内容主要涉及到如何构造合理的搜索引擎模 型,如何有效的组织网络资源,如何发现网络中蕴涵的资源和如何对已经得到 的数据进行维护等。本文的创造性研究成果主要有: (1) 在分析目前搜索引擎模型的基础上,从模型的结构角度提出一种新的搜 索引擎模型(混合模型),它能快速、准确地发现用户所需的信息,并分析实现该 模型所需要的关键技术。 (2)根据 Fisher判别方法的思想提出了一种有效的有监督层次文档分类算法 (HDCF),该算法主要将文档按照主题进行层次分类,利用Fisher线性判别式的思 想来提取每一类的正特征词和负特征词,然后根据这些特征词对给定文档进行 分类。该算法不仅克服一般层次分类算法中假定特征词之间必须满足独立性的 条件,而且能处理一个文档涉及多个类的分类问题。在实验中,采用召全率和 准确率2个指标与其它算法进行比较,实验结果表明:HDCF 的效果好于其它算 法。 (3)为了满足在线学习文档分类需要,本文根据自适应谐振理论提出了半监 督学习自适应谐振理论系统。在该系统中取消了一般半监督学习算法中假定已 知数据概率分布的条件限制,利用自适应谐振理论的稳定性和可塑性,使其具 有非常强的学习新模式和纠正错误能力。为了提高系统自适应性能力,将警戒 参数设置为动态变化。实验结果表明半监督学习自适应谐振理论系统的性能优 于判别式CEM算法,特别是在含有噪音和新模式数据情况下,其优势更为明显。 i 基于数据挖掘的 Web 信息检索研究 (4)针对已有的周期性关联规则模型的局限性,提出一种新的周期性关联规 则模型。此模型通过聚类分析可以将一个周期分成若干个长度不等的时间段, 并给出该算法,实验结果表明这样可以更准确地发现周期性关联规则。同时, 因为数据的稀疏性,在底层或原始的数据之间很难找到满足用户需求的周期性 关联规则,而有很多数据是分层,在较高层次上可以发现的周期性关联规则, 所以,又提出周期性一般关联规则算法(CGI)。由于周期性一般关联规则对数据 噪声非常敏感,用噪声比来抑制数据噪声对发现周期性一般关联规则的影响。 同时根据对周期性与一般频繁项集之间关系的分析,利用周期裁剪技术来节省 挖掘时间。本文中给出了 CGI 算法,同时还对发现规则的有意义性和冗余性进 行判断和处理。实验证明,该算法可高效地发现周期性一般关联规则。 (5)关联规则是要从大量的数据中找到数据之间的规律,但有时所产生的规 律十分繁多,从而形成新的知识管理问题。针对该问题本文提出了一个新的算 法,该算法利用系统聚类分析方法对规则进行分组,从而更好地帮助用户理解 所发现的规律,由于该方法的距离(RatioD)是基于关联规则本身,因此,可对规 则进行高效地分组。实验结果表明,该算法是有效的。 (6)对于维护已发现的序列模式方法主要有两种,一种是简单地利用已有的 挖掘序列模式算法对更新后的整个数据库进行操作,这种方法涉及数据库中的 数据不仅有改变的部分而且有未改变的部分,而未改变的数据数量很大,当更 新频率高时,代价是非常大的;另一种方法是根据库中记录数目改变多少来决 定何时对整个数据库进行操作,但是记录数目变化大并不能代表序列模式变化 也大,因此本文利用样品抽样的方法来评估序列模式改变的程度,并根据改变 的程度决定何时对整个数据库进行操作来更新序列模式,从而较好地解决了序 列模式维护的问题。 关键词: 搜索引擎,层次文档分类,自适应谐振理论,半监督学习,周期性 关联规则,周期性一般关联规则,分组,序列模式 ii 南京航空航天大学博士学位论文 Abstract Internet makes people can easily access to information, but the amount of publicly available information on the web is growing explosively and only a small portion of the information on the web is truly relevant o

文档评论(0)

smdh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档