- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
摘 要
摘 要
随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工
具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎
已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间
敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时
态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针
对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果
的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索
引擎发展的重要方向之一。
本文以时态文本搜索引擎为背景,重点研究了结合Web 网页中的时间信息
与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索
引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论
和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较
优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文
的主要贡献如下:
(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引
擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新
时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到
索引处理中。我们以B+树、倒排文件和 MAP21 树为基础,研究并比较了五种
混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘I/O
时间以及查询时间的性能比较,得出“先倒排索引后MAP21 树”的索引结构具
有较好的性能。
(2 )提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构
是对先前验证的较好的“先倒排文件后MAP21 树”的时态文本索引结构的改进。
针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤
其是对于首要时间的研究,将内容时间区间转换成内容时间点,将MAP21 树用
哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数
据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得
到哈希的时态文本索引结构比 “先倒排文件后MAP21 树”的索引结构更优,更
适合作为时态文本搜索引擎的索引结构。
关键词:Web 搜索 时态信息 混合索引结构 时态文本查询
I
Abstract
Abstract
With the rapid development of Internet technology, search engine has been an
important part in peoples life and working hours. However, due to the rapid growth of
Web information and the increasing of peoples demands on Web search, general
search engines can not satisfy users request for information retrieval services. As a
consequence, it is urgent to improve the searching effectiveness and efficiency of Web
search engines. For this goal, many researches have been focused on the time
information in Web. Most Web pages contain time information in their contents, such
as business news, p
您可能关注的文档
最近下载
- 安全员考试经典题库大全附参考答案(综合题).docx
- 2025科技馆招聘工作人员职业能力测试公共基础知识试卷 (1).docx VIP
- 大模型时代的具身智能.pptx VIP
- 高一上学期高教版(2021)中职数学基础模块上册《函数的概念》课件.pptx VIP
- 2025科技馆招聘工作人员职业能力测试公共基础知识试卷.docx VIP
- 放样测量报告模板.pdf VIP
- 教科版小学科学六年级上册《4.2调查家中使用的能量》课件.pptx
- 学校修缮工程施工方案.docx VIP
- 如何理解“作风建设永远在路上,永远没有休止符”?我们应如何加强作风建设? (2).doc VIP
- 吐血总结《Mysql从入门到精通》,MySQL数据库实用教程,图文并茂(建议收藏).docx VIP
原创力文档


文档评论(0)