Web网页的时态文本索引分析-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约5.23万字
约 57页
2018-09-06 发布于上海
举报
版权申诉

Web网页的时态文本索引分析-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web网页的时态文本索引分析-计算机应用技术专业论文

图目录图目录图目录图 1. 1 典型的搜索引擎的体系结构2 图 2. 1 倒排表的组织结构10 图 2. 2 R 树的具体结构 11 图 2. 3 PROTUES 信息抽取系统体系结构 13 图 3. 1 网页的时间本体18 图 3. 2 时态文本搜索引擎的系统架构20 图 3. 3 倒排文件、B+树和 MAP21 树三个索引的描述 22 图 3. 4 先倒排文件然后 MAP21 树和 B+树索引结构的算法描述 24 图 3. 5 先倒排文件然后 MAP21 树（UT=更新时间）的描述 26 图 3. 6 扩展的倒排文件的结构的描述（UT 是更新时间，PT 是首要时间） 27 图 3. 7 首先 MAP21 树然后倒排文件的描述（UT 是更新时间） 29 图 4. 1 先倒排文件后 MAP21 树（UT 指更新时间） 40 图 4. 2 哈希的文本时态索引结构（UT 指更新时间） 43 图 4. 3 两种索引结构的查询时间45 VII 表目录表目录表目录表 3. 1 符号描述21 表 3. 2 在 T1095 数据集下五种混合索引结构的索引大小（兆字节） 31 表 3. 3 在 T1825 数据集下五种混合索引结构的索引大小（兆字节） 32 表 3. 4 在 T2555 数据集下五种混合索引结构的索引大小（兆字节） 32 表 3. 5 在 T1095 数据集下五种混合索引结构的页的 I/O 数量 33 表 3. 6 在 T1825 数据集下五种混合索引结构的页的 I/O 数量 33 表 3. 7 在 T2555 数据集下五种混合索引结构的页的 I/O 数量 33 表 3. 8 在 T1095 数据集下五种混合索引结构的运行时间（秒） 34 表 3. 9 在 T1825 数据集下五种混合索引结构的运行时间（秒） 34 表 3. 10 在 T2555 数据集下五种混合索引结构的运行时间（秒） 34 表 3. 11 在真实数据集上的五种混合索引结构的索引大小（兆字节） 35 表 3. 12 在真实数据集上的五种混合索引结构的页 I/O 数量 36 表 3. 13 在真实数据集上的五种混合索引结构的运行时间（秒） 36 表 4. 1 两种索引的索引大小和重建时间44 VIII 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：签字日期：中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。 □公开 □保密（年）作者签名：导师签名：签字日期：签字日期：第一章第一章绪论第一章绪论 1.1 研究背景与意义随着网络技术的不断发展，如百度、谷歌等搜索引擎在人们的生活中占据了很重要的一个部分。搜索引擎的主要目标是快速准确的将信息传递给用户，这个目标主要是借助查询处理系统来实现。为了实现这个目标，搜索引擎为用户提供了许多有效的方法去准确地表达他们的需求，同时也在排序与索引中发展了不少有效的算法。尽管如此，但是时间作为信息的重要特征之一，它的关注度并不高。我们可以从以下几个方面来阐述：（1）大部分网页包含时态信息，例如商业新闻、折扣信息等等。如 GOOGLE 搜索引擎很难表达如“查找下个星期耐克专卖店的打折信息”这样的查询。而这些时间信息对于用户来说非常有用。（2）根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。（3）主流搜索引擎只能提供针对网页更新时间的查询，缺乏对网页内容时间的查询能力，由此限制了用户查询结果。网页的更新时间指的是网页文件的最近更新时间，内容时间指的是网页内容中蕴含的时间信息。针对以上几种情况，时态与文本相结合的搜索引擎显得很有价值。目前在这方面的研究比较少，最相关的工作就是针对网页多版本问题应运而生的时态文本搜索引擎的研究，而我们所要研究的是针对类似新闻网页的即时信息的时态文本搜索引擎。目前时间已经被聚焦在网络信息抽取技术与网络搜索领域。尽管如此，大多数研究仅仅考虑网页的更新时间而没有整体地探索网络上的不同的时间特性。在