搜索引擎原型系统设计与实现.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎原型系统设计与实现.PDF

搜索引擎原型系统设计与实现 [要求] 实现一个中文搜索引擎的原型系统(demo 版本)。检索(即搜索)的范围可 以是某个网站的网页(比如南京大学的内部网页),也可以针对某个行业做垂直 搜索(比如学术论文检索),或者针对社交媒体(比如微博)进行检索。 功能应包括: (1) 利用爬虫程序 [1] ,自动爬取相关的中文文档集合(文档之间必须有 有向链接关系)。例如,南京大学( )网站下 的网页。可以自己从头编写爬虫程序,也可以采用开源爬虫软件, 例 如 雅 虎 爬 虫 软 件 Anthelion 的 开 源 版 本 : /yahoo/anthelion,也可以采用其他开源爬虫软件。 (2) 设计中文分词算法,实现分词。可以自己从头编写分词算法,也可 以采用开源软件,例如nlpir:/docs, 或者jieba : /fxsjy/jieba 。 (3) 基于爬取的文档集合和分词结果,构建倒排索引(inverted index )[2]。 (4) 实现布尔检索(Boolean retrieval)功能 [2] ,至少得支持“与(AND )” 和“或(OR )”操作。 (5) 基于文档之间的有向链接图,实现 PageRank 排序算法 [3] ,用来对 布尔检索返回的结果(文档)进行排序。另一种对布尔检索返回的 结果进行排序的方法是基于每个文档被其他文档链接的次数(即有 向图中的入度),入度大的排在前面。实现基于入度的排序算法,并 跟PageRank 排序算法得到的排序结果进行对比。在布尔检索返回的 结果中,同时显示文档、文档对应的PageRank 值和入度。 (6) 搭建一个完整的搜索引擎,包括用户界面设计、外部排序与搜索等。 可以使用开源的框架,如 Lucene、Sphinx 等,也可以从头开始自己 实现。 设计要求:  上述“功能”部分的(1)和(2)两项功能中,最多只允许其中一项功能 采用开源软件,至少得有一项功能是自己从头实现(实现语言不限)。  上述“功能”部分的(3)、(4)和(5)三项功能都得自己用 C++语言从头 实现,并且不能调用STL 库中的如下容器:vector, list, stack, queue, priority queue, set, multiset。  必须构造图的数据结构,并实现统计入度的算法和 PageRank 算法, 提供函数接口。  上述“功能”部分的第(6)项是额外加分的功能 (在大作业基本成绩 基础上最多加20% )。  界面友好,函数功能要划分好。  程序要加必要的注释。  要提供程序测试方案。  给出书面报告。 [参考资料] [1] .tr/~aktas/courses/CE-0114890/chapter-8.pdf [2] /lwj/course/wsm/lecture2-boolean.ppt [3] /lwj/course/mmds/lecture7-LinkAnalysis.ppt [4] /lwj/course/wsm.html [5] Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. (网上可以下载电 子版) [检查方式] 自行组队完成大作业,每个队伍最多3 人。检查方式分两部分:现场演示与 书面报告。 (1) 2016 年12 月15 日之前,完成组队,每个队伍选一个联络员,将队 伍成员信息发给助教。 (2) 2017 年

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档