信息检索与搜索引擎课程报告.pdfVIP

下载本文档

2
0
约4.73千字
约 13页
2021-02-02 发布于未知
举报
版权申诉

信息检索与搜索引擎课程报告.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《信息检索搜索引擎技术》期末考试报告学期： 2016-2017 学年第一学期任课教师：毛存礼专业年级：计科 133 学号： 201310405339 201310405326 201310405330 201310405325 学生姓名：李然、毛子铭、张倩、黄枫目录一、系统概述随着互联网的迅猛发展 WEB 信息的增加，用户要在信息海洋里查找自己所需的信息，就像大海捞针一样，搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站，这些站点的服务器通过软件或网络登录等方式，将 Intenet 上大量网站的页面信息收集到本地，经过加工处理建立信息数据库和，从而对用户提出的各种检索做出响应，提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。本系统基于 HTMLUNIT 框架，构建爬虫，基于 LUCENE 框架，构建索引，利用向量空间模型向量化表示文档间的相关性，利用 LUCENE 给相关文档打分。二、系统需求分析 2.1 功能需求分析该系统分为四个功能模块：（1）爬虫模块（2）索引模块（3）向量化表示模块（4）打分模块具体实现分工如下： ①爬虫模块：该模块采用 Htmlunit 框架，主要负责爬取网页内容，在本地建立文档库，以便于索引功能模块，将文档库里的文档内容建立成索引。（毛子铭所做） ②索引模块：该模块采用 Lucene 框架，功能分为两块：一是建立索引，将爬取的内容建立成索引。二是检索索引，即提供给用户检索索引。（张倩所做） ③向量化表示模块：该模块采用向量空间模型，其功能是将查询文本和文档向量化表示，以一种直观的表示方法，展示出文档间的相似度。（李然、黄枫合做） ④打分模块：该模块采用 Lucene 打分系统，计算查询文本和文档的相似度，并对其文档打分。（李然、黄枫合做）三、程序实现 3.1 爬虫的实现 3.1.1 对网页进行分析（1）我们首先，对网页进行分析，昆工新闻上每一则新闻，都有相应的链接，通过点击链接查看相应的新闻。 1 昆工新闻网页截图 2 新闻内容截图（2）在浏览器中，查看新闻网的代码，确定我们所需要的内容并用XPATH 表达式定位其内容。 3 新闻代码截图 3.1.2 编写爬虫（1）在这里，我们使用了HtmlUnit 作为我们爬虫的框架，并指定内容，对昆工新闻网进行爬取。 4 部分代码展示（2）编写XPATH 表达式，定位所抓取的内容，在爬取过程中，首先要找到新闻的标题，然后，再模拟点击标题的动作，进入新闻页面。（3）爬取内容，并将其写入文本文档中。 5 写入文档 6爬取内容 3.2 索引的实现 3.2.1 分词的实现（1）在建立索引之前，分词是必不可少的步骤，我们所采用的是基于Lucene 框架的 IK 分词技术分词。 7 部分代码展示（2）对爬取的内容，进行分词测试。