锚文本在搜索引擎中的存储及应用.docVIP

下载本文档

4
0
约2.68万字
约 43页
2017-08-23 发布于湖南
举报
版权申诉

锚文本在搜索引擎中的存储及应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本科生毕业论文题目：(中文) 锚文本在搜索引擎中的存储及应张旭东随着互联网的飞速发展，信息检索在实际生活中的作用越来越重要，在学术界也引起了研究学者的重视。互联网规模的不断扩大，使得作为网页之间的链接文本的锚文本的作用越来越大。针对锚文本在搜索引擎中的研究近十年才逐步开展起来的。锚文本在搜索引擎应用非常广泛，因此设计一种高效的锚文本的存储结构就显得非常重要。本文在北京大学网络实验室天网组的智能中文搜索引擎平台PARADISE，对原有锚文本的存储结构进行了改进，设计了一种新的附加信息存储结构，这种结构额外存储了锚文本的附加信息，相比于以往的结构来讲又节省了存储空间。另外，本文使用锚文本新的存储结构在PARADISE中设计并实现了相应的打分模块，用于锚文本的检索。在TREC09 Web Track的Clueweb09B数据集上，同时使用PARADISE锚文本新旧存储结构和打分模块，进行了锚文本的构建索引和检索的对比实验，实验结果发现新的结构下锚文本的存储空间有了显著的减少，锚文本的检索效果相比于原先的检索方法也有了提高。关键词：锚文本 PARADISE 存储检索目录第 1 章引言 1 1.1 万维网的起源和发展 1 1.2 信息检索和搜索引擎 1 1.3 锚文本概述 2 1.4 本文的贡献 3 1.5 本文组织 3 第 2 章相关研究 4 2.1 锚文本在搜索引擎中的可行性依据 4 2.2 锚文本存储的相关研究 5 2.3 锚文本应用的相关研究 5 2.4 扩展列表（Extend List） 7 2.5 PARADISE搜索引擎平台介绍 8 第 3 章 PARADISE中锚文本的存储结构及其实现 10 3.1 PARADISE中原有锚文本的存储结构及缺陷 10 3.1.1 原有锚文本存储结构 10 3.1.2 旧有存储结构的缺陷 11 3.2 锚文本新型存储结构的实现 12 3.2.1 新型存储结构的设计目标 12 3.2.2 新型存储结构的设计和实现 12 Section List在内存中的结构 13 Section List在磁盘中的结构 14 Section List数据写入磁盘和从磁盘读取的过程 15 第 4 章 PARADISE锚文本的检索算法和实现 16 4.1 PARADISE中原有锚文本检索算法 16 4.2 新型存储结构下锚文本检索算法的实现 16 4.2.1 Okapi BM25打分器 16 4.2.2 AF1打分器 17 4.2.3 站外链接静态打分器 17 4.2.4 站外链接-词频BM25打分器 17 4.2.5 PageRank静态打分器 17 4.2.6 PageRank-词频打分器 18 4.2.7 精确匹配打分器 18 4.2.8 BM25词接近打分器 19 第 5 章锚文本的存储和检索的实验及评测 20 5.1 评测集及实验环境介绍 20 5.1.1 TREC 20 5.1.2 ClueWeb09B 数据集 20 5.1.3 查询集及标准结果集 21 5.1.4 评测指标介绍 21 MAP 21 Mean R Precision 21 Mean Precision At k 22 Mean NDCG 22 MRR 23 5.1.5 实验环境 23 5.2 锚文本存储的实验 23 5.2.1 实验方法 23 5.2.2 实验结果 24 5.2.3 实验结果分析 26 5.3 锚文本检索的实验 26 5.3.1 实验方法 26 5.3.2 实验结果 27 5.3.3 实验结果分析 28 第 6 章总结及展望 30 6.1 总结 30 6.2 展望 30 附录 32 A1 锚文本存储实验中的实验数据 32 A2 锚文本检索实验中的实验数据 33 致谢 34 参考文献 35 引言万维网的起源和发展万维网（World Wide Web, WWW）起源于1989 年欧洲粒子物理研究室(CERN)。万维网的最初计划是由CERN 的物理学家Tim Berners-Lee 于1989 年3 月提出的，第一个原型（基于文本）于18个月后运行。此后，许多院校和业界公司纷纷加入到万维网的研究中来，开发大量基于万维网的应用程序。万维网是一个分布式信息系统，核心技术是超文本和超媒体。在这样一个系统中，用户可以通过超链接的指引，非常容易地获取分布在不同机器上的信息；各种不同地区，职业的人们可以自由地把本地的信息放到这个系统中去。这样，这个系统就成为一个全球区域的，包括大量信息的系统。万维网通过将文本、图形、图像、音频、视频等信息的有机结合，给人们提供了丰富的信息表示空间。二十多年来，万维网吸引了大量的用户和开发者，使其不断完善发展，信息容量有了巨大增长。以国内情况为