Web信息检索中基于Web挖掘的查询优化研究-计算机软件与理论专业论文.docxVIP

下载本文档

0
0
约6.67万字
约 79页
2018-09-06 发布于上海
举报
版权申诉

Web信息检索中基于Web挖掘的查询优化研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息检索中基于Web挖掘的查询优化研究-计算机软件与理论专业论文

上海交通大学硕士学位论文中文摘要上海交通大学硕士学位论文中文摘要 II II 中文摘要信息检索是一门有关信息表示信息存储信息组织信息访问的学科在过去的几千年中人类一直在进行着信息的组织以利于以后的检索和使用典型的例子就是书籍的目录随着时代的发展尤其是计算机的出现和计算机网络的成长特别是因特网的出现和普及使得计算机以更快的速度走入千家万户这些使得在因特网上信息的数量以几何积数飞速膨胀我们也把这一时段称为信息爆炸的年代与此同时伴随着计算机技术的飞速发展特别是数字化技术越来越成熟制作和存储成本的降低信息以电子化传递的网络化多媒体形式这些新的方式出现也就形成了新的信息危机和研究需求智能信息检索是近年来非常活跃的研究领域它有着极其广阔的应用前景但解决起来却又极为困难主要难点在于计算机的理解能力非常有限无法进行语义上的解释和分析因而人们在研究过程中不得不求助于用户的参与和帮助来优化检索的结果目前主要采用两个方面的技术即自动查询扩展技术在线优化与基于用户日志分析的查询结果重新排序的离线优化技术本文也主要从这两个方面进一步来提高检索的性能优化检索的结果查询扩展是利用基于反馈的方法来进行查询的优化但由于人工进行查询扩展是用户不愿意显式的提供在线的交互所以我们采用自动查询扩展的技术通过用户的交互来进行查询的扩展查询扩展中一个主要问题是查询扩展词源的选取问题如何选择正确的扩展词对于扩展的结果有很大的影响目前很多研究从概念语义网中来进行扩展词的选取对于概念语义网的研究在国际上主要是基于人工的方法来架构概念语义词典如 WordNet 中文的知网等它们对于进行概念检索是很有效的一种工具它的缺点就是构造非常复杂维护量大基于词之间的相关性的词典被提出它是一种基于统计的方法对文档集进行统计分析并统计词间的同现频率利用该词典可以在一定程度上提高全文检索召回率但它并没有进一步挖掘词间的深层次的关联信息所以检索的结果集的精确度反而降低本文利用文本挖掘技术来自动构造概念词典采用文本挖掘的方法挖掘 WEB 文档集中的词的关联规则我们将文档集中的文档按照倒排文件建立索引文件利用文本挖掘技术挖掘文档集合中的词的互现特征获取词间相关度并分析词间的关系以此获得概念词典然后近可能采 III III 用与查询词所有互现的词用来扩展实验结果显示基于该方法的概念词典具有动态性时效性准确性等特征我们将构造的概念词典应用到查询扩展中能明显提高检索的召回率和检索的精度接对于离线优化我们则想利用服务器端的用户日志文件对这些大数据集进行数据挖掘从中发现用户的浏览模式在利用这些模式来对用户检索的结果进行重新排序我们做了两个方面的工作首先利用改进的序列挖掘的算法来挖掘用户的浏览日志挖掘出蕴藏在日志中的二元用户访问模式并构造一个页面的推荐系统来评价发现的二元序列模式实验结果表明该二元序列模式能够代表用户的意图同时我们也发现这种模式满足 PageRank 算法的假设即基于内容推荐的假设所以我们把发现的二元序列模式作为隐式链 Implicit Link并对 PageRank 算法进行改进计算页面的权威度Authority在此基础上对检索的结果进行重新排序把权威度高的并且检索相关度高的页面提交给用户实验结果显示该算法比基于关键字的方法提高 16% 此外我们也分析了 Web 站点的结构发现一般 Web 站点都存在一定层次语义结构的 Taxonomy 以往人们对日志的挖掘一般都在层次结构的叶子层没有考虑到 Taxonomy 的不同层之间也存在很重要的模式我们的算法是在构造一个 Taxonomy 的层次结构下采用泛化关联挖掘来发掘不同概念层之间的页面关联信息结果显示我们挖掘的规则与一般方法相比更具有用性与代表用户的观点与兴趣进一步我们用发掘的规则来对用户浏览的结果进行调整实验结果表明算法检索的精确度要比目前全文检索引擎基于关键字的方法提高 11% 接关键词 Web 挖掘概念网查询扩展页面重排序隐式链接泛化关联规则上海交通大学硕士学位论文Abstract 上海交通大学硕士学位论文 Abstract PAGE PAGE IV Abstract Information retrieval is the special knowledge about information presentation, information storage, informa