搜索引擎原型系统设计与实现.PDF

下载文档

20
0
约2.25千字
约 3页
2017-06-14 发布于天津
举报
版权申诉
保障服务

搜索引擎原型系统设计与实现.PDF

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

搜索引擎原型系统设计与实现.PDF

搜索引擎原型系统设计与实现 [要求] 实现一个中文搜索引擎的原型系统（demo 版本）。检索（即搜索）的范围可以是某个网站的网页（比如南京大学的内部网页），也可以针对某个行业做垂直搜索（比如学术论文检索），或者针对社交媒体（比如微博）进行检索。功能应包括： (1) 利用爬虫程序 [1] ，自动爬取相关的中文文档集合（文档之间必须有有向链接关系）。例如，南京大学（）网站下的网页。可以自己从头编写爬虫程序，也可以采用开源爬虫软件，例如雅虎爬虫软件 Anthelion 的开源版本： /yahoo/anthelion，也可以采用其他开源爬虫软件。 (2) 设计中文分词算法，实现分词。可以自己从头编写分词算法，也可以采用开源软件，例如nlpir：/docs，或者jieba ： /fxsjy/jieba 。 (3) 基于爬取的文档集合和分词结果，构建倒排索引（inverted index ）[2]。 (4) 实现布尔检索（Boolean retrieval）功能 [2] ，至少得支持“与（AND ）” 和“或（OR ）”操作。 (5) 基于文档之间的有向链接图，实现 PageRank 排序算法 [3] ，用来对布尔检索返回的结果（文档）进行排序。另一种对布尔检索返回的结果进行排序的方法是基于每个文档被其他文档链接的次数（即有向图中的入度），入度大的排在前面。实现基于入度的排序算法，并跟PageRank 排序算法得到的排序结果进行对比。在布尔检索返回的结果中，同时显示文档、文档对应的PageRank 值和入度。 (6) 搭建一个完整的搜索引擎，包括用户界面设计、外部排序与搜索等。可以使用开源的框架，如 Lucene、Sphinx 等，也可以从头开始自己实现。设计要求：  上述“功能”部分的(1)和(2)两项功能中，最多只允许其中一项功能采用开源软件，至少得有一项功能是自己从头实现（实现语言不限）。  上述“功能”部分的(3)、(4)和(5)三项功能都得自己用 C++语言从头实现，并且不能调用STL 库中的如下容器：vector, list, stack, queue, priority queue, set, multiset。  必须构造图的数据结构，并实现统计入度的算法和 PageRank 算法，提供函数接口。  上述“功能”部分的第(6)项是额外加分的功能（在大作业基本成绩基础上最多加20% ）。  界面友好，函数功能要划分好。  程序要加必要的注释。  要提供程序测试方案。  给出书面报告。 [参考资料] [1] .tr/~aktas/courses/CE-0114890/chapter-8.pdf [2] /lwj/course/wsm/lecture2-boolean.ppt [3] /lwj/course/mmds/lecture7-LinkAnalysis.ppt [4] /lwj/course/wsm.html [5] Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. （网上可以下载电子版） [检查方式] 自行组队完成大作业，每个队伍最多3 人。检查方式分两部分：现场演示与书面报告。 (1) 2016 年12 月15 日之前，完成组队，每个队伍选一个联络员，将队伍成员信息发给助教。 (2) 2017 年