- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web网页的时态文本索引分析-计算机应用技术专业论文
图目录
图目录
图目录
图 1. 1 典型的搜索引擎的体系结构2
图 2. 1 倒排表的组织结构10
图 2. 2 R 树的具体结构 11
图 2. 3 PROTUES 信息抽取系统体系结构 13
图 3. 1 网页的时间本体18
图 3. 2 时态文本搜索引擎的系统架构20
图 3. 3 倒排文件、B+树和 MAP21 树三个索引的描述 22
图 3. 4 先倒排文件然后 MAP21 树和 B+树索引结构的算法描述 24
图 3. 5 先倒排文件然后 MAP21 树(UT=更新时间)的描述 26
图 3. 6 扩展的倒排文件的结构的描述(UT 是更新时间,PT 是首要时间) 27
图 3. 7 首先 MAP21 树然后倒排文件的描述(UT 是更新时间) 29
图 4. 1 先倒排文件后 MAP21 树(UT 指更新时间) 40
图 4. 2 哈希的文本时态索引结构(UT 指更新时间) 43
图 4. 3 两种索引结构的查询时间45
VII
表目录
表目录
表目录
表 3. 1 符号描述21
表 3. 2 在 T1095 数据集下五种混合索引结构的索引大小(兆字节) 31
表 3. 3 在 T1825 数据集下五种混合索引结构的索引大小(兆字节) 32
表 3. 4 在 T2555 数据集下五种混合索引结构的索引大小(兆字节) 32
表 3. 5 在 T1095 数据集下五种混合索引结构的页的 I/O 数量 33
表 3. 6 在 T1825 数据集下五种混合索引结构的页的 I/O 数量 33
表 3. 7 在 T2555 数据集下五种混合索引结构的页的 I/O 数量 33
表 3. 8 在 T1095 数据集下五种混合索引结构的运行时间(秒) 34
表 3. 9 在 T1825 数据集下五种混合索引结构的运行时间(秒) 34
表 3. 10 在 T2555 数据集下五种混合索引结构的运行时间(秒) 34
表 3. 11 在真实数据集上的五种混合索引结构的索引大小(兆字节) 35
表 3. 12 在真实数据集上的五种混合索引结构的页 I/O 数量 36
表 3. 13 在真实数据集上的五种混合索引结构的运行时间(秒) 36
表 4. 1 两种索引的索引大小和重建时间44
VIII
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。
作者签名:
签字日期:
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。
保密的学位论文在解密后也遵守此规定。
□公开 □保密( 年)
作者签名:
导师签名:
签字日期:
签字日期:
第一章
第一章 绪论
第一章 绪论
1.1 研究背景与意义
随着网络技术的不断发展,如百度、谷歌等搜索引擎在人们的生活中占据了 很重要的一个部分。搜索引擎的主要目标是快速准确的将信息传递给用户,这个 目标主要是借助查询处理系统来实现。为了实现这个目标,搜索引擎为用户提供 了许多有效的方法去准确地表达他们的需求,同时也在排序与索引中发展了不少 有效的算法。尽管如此,但是时间作为信息的重要特征之一,它的关注度并不高。 我们可以从以下几个方面来阐述:
(1)大部分网页包含时态信息,例如商业新闻、折扣信息等等。如 GOOGLE 搜索引擎很难表达如“查找下个星期耐克专卖店的打折信息”这样的查询。而这 些时间信息对于用户来说非常有用。
(2)根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。
(3)主流搜索引擎只能提供针对网页更新时间的查询,缺乏对网页内容时 间的查询能力,由此限制了用户查询结果。网页的更新时间指的是网页文件的最 近更新时间,内容时间指的是网页内容中蕴含的时间信息。
针对以上几种情况,时态与文本相结合的搜索引擎显得很有价值。目前在这 方面的研究比较少,最相关的工作就是针对网页多版本问题应运而生的时态文本 搜索引擎的研究,而我们所要研究的是针对类似新闻网页的即时信息的时态文本 搜索引擎。
目前时间已经被聚焦在网络信息抽取技术与网络搜索领域。尽管如此,大多 数研究仅仅考虑网页的更新时间而没有整体地探索网络上的不同的时间特性。在
您可能关注的文档
- UV 喷墨油墨中试关键技术研究-教育技术学专业论文.docx
- UU声触诊组织定量分析技术在慢性肾脏疾病诊断中的初步应用分析-临床医学(影像诊断专门化)专业论文.docx
- UV-LIGA制备金微小零件技术研究机械制造及其自动化专业论文.docx
- UV-固化聚氨酯丙烯酸酯纳米杂化涂料的合成、固化反应动力学与性能-高分子化学与物理专业论文.docx
- UVA对球型脂质膜模型内质粒DNA环状结构的破坏-生物医学工程专业论文.docx
- UVA照射对黑腹果蝇生物学特性和抗氧化反应的影响-农业昆虫与害虫防治专业论文.docx
- UVB对人上皮细胞损伤作用的实验研究-流行病与卫生统计学专业论文.docx
- UV光固化水性木器涂料的制备与性能研究-材料工程专业论文.docx
- UV光固化水性聚氨酯的合成及在静电植绒上的应用-纺织化学与染整工程专业论文.docx
- UV凹印磨砂油墨的研究-教育技术学专业论文.docx
- 2012-2021北京重点校高一(下)期中语文汇编:词类活用.pdf
- 电力市场与经济运行优化:电力市场优化算法_(28).电力市场中的市场力分析.docx
- 医院培训课件:《俯卧位通气的护理》.pptx
- 电力市场与经济运行优化:电力系统能效优化方法_(1).电力市场基础理论.docx
- 电力市场与经济运行优化:电力系统能效优化方法_(9).电力系统运行与能效优化.docx
- 电力市场与经济运行优化:电力系统能效优化方法_(15).电力市场与环境影响分析.docx
- 电力市场与经济运行优化:电力系统优化调度_(1).电力市场基础与原理.docx
- 电力市场与经济运行优化:电力系统优化调度_(14).电力市场改革政策与影响.docx
- 电力市场与经济运行优化:电力系统运行优化_(4).电力系统运行基础.docx
- 2025年航运行业分析.docx
文档评论(0)