- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web网页的时态文本索引研究-计算机应用技术专业论文
摘
摘 要
摘 要
随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工 具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎 已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间 敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时 态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针 对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果 的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索 引擎发展的重要方向之一。
本文以时态文本搜索引擎为背景,重点研究了结合 Web 网页中的时间信息 与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索 引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论 和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较 优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文 的主要贡献如下:
(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引 擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新 时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到 索引处理中。我们以 B+树、倒排文件和 MAP21 树为基础,研究并比较了五种 混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘 I/O 时间以及查询时间的性能比较,得出“先倒排索引后 MAP21 树”的索引结构具 有较好的性能。
(2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构 是对先前验证的较好的“先倒排文件后 MAP21 树”的时态文本索引结构的改进。 针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤 其是对于首要时间的研究,将内容时间区间转换成内容时间点,将 MAP21 树用 哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数 据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得 到哈希的时态文本索引结构比“先倒排文件后 MAP21 树”的索引结构更优,更 适合作为时态文本搜索引擎的索引结构。
关键词:Web 搜索 时态信息 混合索引结构 时态文本查询
I
Abst
Abstract
Abstract
With the rapid development of Internet technology, search engine has been an important part in peoples life and working hours. However, due to the rapid growth of Web information and the increasing of peoples demands on Web search, general search engines can not satisfy users request for information retrieval services. As a consequence, it is urgent to improve the searching effectiveness and efficiency of Web search engines. For this goal, many researches have been focused on the time information in Web. Most Web pages contain time information in their contents, such as business news, publication information, promotion information in online stores, and so on. It is meaningful to integrate those time information into the process of Web search. However, major search engines can only support Web search on the update time (or crawled time) of Web pages, and therefore are not sufficient to deal with temporal-textual queries, as the content time in Web pages is n
您可能关注的文档
- UV 喷墨油墨中试关键技术研究-教育技术学专业论文.docx
- UU声触诊组织定量分析技术在慢性肾脏疾病诊断中的初步应用分析-临床医学(影像诊断专门化)专业论文.docx
- UV-LIGA制备金微小零件技术研究机械制造及其自动化专业论文.docx
- UV-固化聚氨酯丙烯酸酯纳米杂化涂料的合成、固化反应动力学与性能-高分子化学与物理专业论文.docx
- UVA对球型脂质膜模型内质粒DNA环状结构的破坏-生物医学工程专业论文.docx
- UVA照射对黑腹果蝇生物学特性和抗氧化反应的影响-农业昆虫与害虫防治专业论文.docx
- UVB对人上皮细胞损伤作用的实验研究-流行病与卫生统计学专业论文.docx
- UV光固化水性木器涂料的制备与性能研究-材料工程专业论文.docx
- UV光固化水性聚氨酯的合成及在静电植绒上的应用-纺织化学与染整工程专业论文.docx
- UV凹印磨砂油墨的研究-教育技术学专业论文.docx
- Web自动化功能测试框架设计与实现通信与信息系统专业论文.docx
- WEB视频播放Gstreamer架构设计-信号与信息处理专业论文.docx
- WEB视频播放的Gstreamer架构设计-信号与信息处理专业论文.docx
- Web访问对象轨迹聚类方法分析-计算机软件与理论专业论文.docx
- Web视频资源的智能发现关键技术研究-计算机科学与技术专业论文.docx
- Web访问模式发现与应用研究软件工程专业论文.docx
- Web评论文本情感分类方法研究-计算机科学与技术专业论文.docx
- Web长期保存的困扰研究-图书情报专业论文.docx
- Web链接结构挖掘中HITS算支的分析与改进-计算机应用技术专业论文.docx
- Web记录自动抽取与去重方法的研究与实现-计算机软件与理论专业论文.docx
最近下载
- 领读经典-外国文学(1)(山东大学)中国大学MOOC慕课 章节测验期末考试客观题答案.docx VIP
- 《电机与拖动基础》课件(共十一章).ppt VIP
- 《PyTorch与深度学习实战》第2章 PyTorch深度学习通用流程.pptx VIP
- 简谱D 想着我Think of Me简谱歌剧魅影.pdf VIP
- 2023-2024学年安徽省马鞍山市第八中学九年级上学期期中考试化学试卷.pdf VIP
- 《PyTorch与深度学习实战》第3章 PyTorch深度学习基础.pptx VIP
- 好书推荐《朝花夕拾》读书分享名著导读PPT课件.pptx VIP
- 22个专业95个病种中医临床诊疗方案目录44.pdf VIP
- 精品解析:天津市第四十三中学2024-2025学年高一上学期第一次月考英语试题(解析版).docx VIP
- 2025年北京市东城区九年级初三一模语文试卷(含答案).docx
文档评论(0)