- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎原型系统设计与实现.PDF
搜索引擎原型系统设计与实现
[要求]
实现一个中文搜索引擎的原型系统(demo 版本)。检索(即搜索)的范围可
以是某个网站的网页(比如南京大学的内部网页),也可以针对某个行业做垂直
搜索(比如学术论文检索),或者针对社交媒体(比如微博)进行检索。
功能应包括:
(1) 利用爬虫程序 [1] ,自动爬取相关的中文文档集合(文档之间必须有
有向链接关系)。例如,南京大学( )网站下
的网页。可以自己从头编写爬虫程序,也可以采用开源爬虫软件,
例 如 雅 虎 爬 虫 软 件 Anthelion 的 开 源 版 本 :
/yahoo/anthelion,也可以采用其他开源爬虫软件。
(2) 设计中文分词算法,实现分词。可以自己从头编写分词算法,也可
以采用开源软件,例如nlpir:/docs, 或者jieba :
/fxsjy/jieba 。
(3) 基于爬取的文档集合和分词结果,构建倒排索引(inverted index )[2]。
(4) 实现布尔检索(Boolean retrieval)功能 [2] ,至少得支持“与(AND )”
和“或(OR )”操作。
(5) 基于文档之间的有向链接图,实现 PageRank 排序算法 [3] ,用来对
布尔检索返回的结果(文档)进行排序。另一种对布尔检索返回的
结果进行排序的方法是基于每个文档被其他文档链接的次数(即有
向图中的入度),入度大的排在前面。实现基于入度的排序算法,并
跟PageRank 排序算法得到的排序结果进行对比。在布尔检索返回的
结果中,同时显示文档、文档对应的PageRank 值和入度。
(6) 搭建一个完整的搜索引擎,包括用户界面设计、外部排序与搜索等。
可以使用开源的框架,如 Lucene、Sphinx 等,也可以从头开始自己
实现。
设计要求:
上述“功能”部分的(1)和(2)两项功能中,最多只允许其中一项功能
采用开源软件,至少得有一项功能是自己从头实现(实现语言不限)。
上述“功能”部分的(3)、(4)和(5)三项功能都得自己用 C++语言从头
实现,并且不能调用STL 库中的如下容器:vector, list, stack, queue,
priority queue, set, multiset。
必须构造图的数据结构,并实现统计入度的算法和 PageRank 算法,
提供函数接口。
上述“功能”部分的第(6)项是额外加分的功能 (在大作业基本成绩
基础上最多加20% )。
界面友好,函数功能要划分好。
程序要加必要的注释。
要提供程序测试方案。
给出书面报告。
[参考资料]
[1] .tr/~aktas/courses/CE-0114890/chapter-8.pdf
[2] /lwj/course/wsm/lecture2-boolean.ppt
[3] /lwj/course/mmds/lecture7-LinkAnalysis.ppt
[4] /lwj/course/wsm.html
[5] Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction
to Information Retrieval. Cambridge University Press, 2008. (网上可以下载电
子版)
[检查方式]
自行组队完成大作业,每个队伍最多3 人。检查方式分两部分:现场演示与
书面报告。
(1) 2016 年12 月15 日之前,完成组队,每个队伍选一个联络员,将队
伍成员信息发给助教。
(2) 2017 年
您可能关注的文档
- 我的孩子爱作怪-谈妥瑞症(Tourettesyndrome).PDF
- 我的荷叶与科技结合创意.doc
- 或标售厂商提运-台塑网电子交易市集.PDF
- 战略绩效评估.PDF
- 房地产行业(开发企业)信用评价指标体系.doc
- 手阳明大肠经足少阴肾经.ppt
- 打造中国服务的升级版上海服务外包交易促进中心落户浦东.PDF
- 打造经营分析体系提升科学管理水平.PDF
- 扬州大学引进或聘用人员审核表.doc
- 扬已之长放眼创新-南京信息职业技术学院继续教育学院.ppt
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)