- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息检索中基于Web挖掘的查询优化研究-计算机软件与理论专业论文
上海交通大学硕士学位论文中文摘要
上海交通大学硕士学位论文
中文摘要
II
II
中文摘要
信息检索是一门有关信息表示 信息存储 信息组织 信息访问的学科 在过去的几千年中 人类一直在进行着信息的组织以利于以后的检索和使用 典型的例子就是书籍的目录 随着时代的发展 尤其是计算机的出现和计算机 网络的成长 特别是因特网的出现和普及 使得计算机以更快的速度走入千家 万户 这些使得在因特网上信息的数量以几何积数飞速膨胀 我们也把这一时 段称为信息爆炸的年代 与此同时 伴随着计算机技术的飞速发展 特别是数 字化技术越来越成熟 制作和存储成本的降低 信息以电子化 传递的网络化 多媒体形式这些新的方式出现 也就形成了新的信息危机和研究需求 智能信 息检索是近年来非常活跃的研究领域 它有着极其广阔的应用前景 但解决起 来却又极为困难 主要难点在于计算机的理解能力非常有限 无法进行语义上 的解释和分析 因而 人们在研究过程中不得不求助于用户的参与和帮助来优 化检索的结果 目前主要采用两个方面的技术 即自动查询扩展技术在线优化 与基于用户日志分析的查询结果重新排序的离线优化技术 本文也主要从这两 个方面进一步来提高检索的性能 优化检索的结果
查询扩展是利用基于反馈的方法来进行查询的优化 但由于人工进行查询 扩展是用户不愿意显式的提供在线的交互 所以我们采用自动查询扩展的技术 通过用户的交互来进行查询的扩展 查询扩展中一个主要问题是查询扩展词源 的选取问题 如何选择正确的扩展词对于扩展的结果有很大的影响 目前 很 多研究从概念语义网中来进行扩展词的选取 对于概念语义网的研究在国际上 主要是基于人工的方法来架构概念语义词典 如 WordNet 中文的知网等 它 们对于进行概念检索是很有效的一种工具 它的缺点就是构造非常复杂 维护 量大 基于词之间的相关性的词典被提出 它是一种基于统计的方法 对文档 集进行统计分析 并统计词间的同现频率 利用该词典可以在一定程度上提高 全文检索召回率 但它并没有进一步挖掘词间的深层次的关联信息 所以检索 的结果集的精确度反而降低 本文利用文本挖掘技术来自动构造概念词典 采 用文本挖掘的方法挖掘 WEB 文档集中的词的关联规则 我们将文档集中的文档 按照倒排文件建立索引文件 利用文本挖掘技术挖掘文档集合中的词的互现特 征 获取词间相关度 并分析词间的关系 以此获得概念词典 然后近可能采
III
III
用与查询词所有互现的词用来扩展 实验结果显示 基于该方法的概念词典具
有动态性 时效性 准确性等特征 我们将构造的概念词典应用到查询扩展中 能明显提高检索的召回率和检索的精度
接对于离线优化 我们则想利用服务器端的用户日志文件 对这些大数据集 进行数据挖掘 从中发现用户的浏览模式 在利用这些模式来对用户检索的结 果进行重新排序 我们做了两个方面的工作 首先 利用改进的序列挖掘的算 法来挖掘用户的浏览日志 挖掘出蕴藏在日志中的二元用户访问模式并构造一 个页面的推荐系统来评价发现的二元序列模式 实验结果表明 该二元序列模 式能够代表用户的意图 同时我们也发现这种模式满足 PageRank 算法的假设 即基于内容推荐的假设 所以我们把发现的二元序列模式作为隐式链 Implicit Link并对 PageRank 算法进行改进 计算页面的权威度Authority在此基 础上对检索的结果进行重新排序 把权威度高的并且检索相关度高的页面提交 给用户 实验结果显示 该算法比基于关键字的方法提高 16% 此外 我们也 分析了 Web 站点的结构 发现一般 Web 站点都存在一定层次语义结构的 Taxonomy 以往人们对日志的挖掘一般都在层次结构的叶子层 没有考虑到 Taxonomy 的不同层之间也存在很重要的模式 我们的算法是在构造一个 Taxonomy 的层次结构下 采用泛化关联挖掘来发掘不同概念层之间的页面关联 信息 结果显示 我们挖掘的规则与一般方法相比更具有用性与代表用户的观 点与兴趣 进一步 我们用发掘的规则来对用户浏览的结果进行调整 实验结 果表明 算法检索的精确度要比目前全文检索引擎基于关键字的方法提高 11%
接
关键词 Web 挖掘 概念网 查询扩展 页面重排序 隐式链接 泛化关联规
则
上海交通大学硕士学位论文Abstract
上海交通大学硕士学位论文
Abstract
PAGE
PAGE IV
Abstract
Information retrieval is the special knowledge about information presentation, information storage, informa
您可能关注的文档
- UHF频段RFID读写器系统的研究-计算机应用技术专业论文.docx
- UHMWPE纳米纤维增强PBS基复合材料的 制备与降解行为研究-材料工程专业论文.docx
- UHMWPE超高分子量聚乙烯的链缠结初始研究-物理化学专业论文.docx
- UHRF1在骨肉瘤细胞侵袭过程中的作用及其机制研究-外科学专业论文.docx
- UHRF1蛋白在结直肠癌组织中的表达情况及其辅助诊断、预后判断价值的分析-内科学(消化系病)专业论文.docx
- UKF煤矿井下捷联惯导大失准角初始对准应用研究-信号与信息处理专业论文.docx
- UL29shRNA表达质粒与ACV对HSV-2抑制效果的比较-生物化学与分子生物学专业论文.docx
- UHF频段高性能基站天线研究-电子与通信工程专业论文.docx
- Unigear 550在电力系统的应用-控制工程专业论文.docx
- Unbound域名系统软件的性能优化及安全性分析-计算机系统结构专业论文.docx
- Web应用前端安全策略研究及应用-计算数学专业论文.docx
- Web应用安全测试技术与漏洞扫描系统设计-电路与系统专业论文.docx
- WEB应用安全漏洞挖掘的研究与实现-计算机应用技术专业论文.docx
- Web应用常见漏洞的产生场景和检测规则研究-电子与通信工程专业论文.docx
- Web应用安全确保技术研究与应用-信息与通信工程专业论文.docx
- Web应用性能测试方法及其应用研究-软件工程专业论文.docx
- Web应用漏洞的分析和防御-计算机系统结构专业论文.docx
- Web应用的漏洞检测与防范技术研究-计算机应用专业论文.docx
- Web应用移动化适配服务中间件的研究与实现-计算机软件与理论专业论文.docx
- Web应用程序性能测试技术的研究及应用-计算机软件与理论专业论文.docx
最近下载
- 十八护理核心制度.doc VIP
- Unit3OurcultureourtresaureReading课件高中英语牛津译林版(2020)选修第三册3.pptx
- JJF(京)159-2025 水质在线电导率仪校准规范.pdf VIP
- GZ104 跨境电子商务赛题第5套-2024年全国职业院校技能大赛双数年拟设赛项赛题.pdf VIP
- 新22J10 无障碍设计.docx VIP
- 杨志人物介绍水浒传.pptx VIP
- 材料科学与工程基础》顾宜第四章课后答案.pptx VIP
- GZ104 跨境电子商务赛题第6套-2024年全国职业院校技能大赛双数年拟设赛项赛题.pdf VIP
- 《PDCA管理循环培训》课件.ppt VIP
- DGTJ08-2206-2024 建筑信息模型技术应用标准(人防工程).pdf VIP
文档评论(0)