- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索与搜索引擎课程报告
《信息检索搜索引擎技术》期末考试报告学 期:2016-2017学年第一学期任课教师:毛存礼 专业年级: 计科133学 号:201310405339、 201310405326、201310405330、201310405325学生姓名:李然、毛子铭、张倩、黄枫 目录一、 系统概述2二、 系统需求分析32.1功能需求分析3三、 程序实现33.1 爬虫的实现33.1.1 对网页进行分析33.1.2编写爬虫53.2索引的实现63.2.1分词的实现63.2.2索引的建立83.2.3检索索引83.3向量空间模型的实现93.3.1向量空间模型概述93.3.2建立向量空间模型103.4利用Lucene打分机制对文档打分13四、 测试13五、 心得体会16系统概述随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intenet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。本系统基于HTMLUNIT框架,构建爬虫,基于LUCENE框架,构建索引,利用向量空间模型向量化表示文档间的相关性,利用LUCENE给相关文档打分。系统需求分析2.1功能需求分析该系统分为四个功能模块:爬虫模块索引模块向量化表示模块打分模块具体实现分工如下:①爬虫模块:该模块采用Htmlunit框架,主要负责爬取网页内容,在本地建立文档库,以便于索引功能模块,将文档库里的文档内容建立成索引。(毛子铭所做)②索引模块:该模块采用Lucene框架,功能分为两块:一是建立索引,将爬取的内容建立成索引。二是检索索引,即提供给用户检索索引。(张倩所做)③向量化表示模块:该模块采用向量空间模型,其功能是将查询文本和文档向量化表示,以一种直观的表示方法,展示出文档间的相似度。(李然、黄枫合做)④打分模块:该模块采用Lucene打分系统,计算查询文本和文档的相似度,并对其文档打分。(李然、黄枫合做)程序实现3.1 爬虫的实现3.1.1 对网页进行分析(1)我们首先,对网页进行分析,昆工新闻上每一则新闻,都有相应的链接,通过点击链接查看相应的新闻。1 昆工新闻网页截图2 新闻内容截图(2)在浏览器中,查看新闻网的代码,确定我们所需要的内容并用XPATH表达式定位其内容。3 新闻代码截图3.1.2编写爬虫(1)在这里,我们使用了HtmlUnit作为我们爬虫的框架,并指定内容,对昆工新闻网进行爬取。4 部分代码展示(2)编写XPATH表达式,定位所抓取的内容,在爬取过程中,首先要找到新闻的标题,然后,再模拟点击标题的动作,进入新闻页面。(3)爬取内容,并将其写入文本文档中。5 写入文档6爬取内容3.2索引的实现3.2.1分词的实现(1)在建立索引之前,分词是必不可少的步骤,我们所采用的是基于Lucene框架的IK分词技术分词。7 部分代码展示(2)对爬取的内容,进行分词测试。9测试3.2.2索引的建立(1)索引的建立,我们也是基于Lucene框架建立的倒排索引,分词技术的不同索引的差别也是很大,因此,分词技术的选取一定要合理。 10 部分代码展示3.2.3检索索引(1)在这里,我们对爬取好的内容,已经建立好了索引,我们分别测试了“宇宙”、“人民”这两关键词进行检索。可以看见,符合“人民”这个关键词的文档有2个,符合“宇宙”这个关键词的文档不存在。12 索引13 索引结果3.3向量空间模型的实现3.3.1向量空间模型概述向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即??。在信息检索中常用的词条权值计算方法为 TF-IDF 函数 ,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为:进行查询的
您可能关注的文档
- 信息安全风险评估试点工作实践与体会_李京春.ppt
- 信息安全导论 CH3.ppt
- 信息技术与信息安全2014广西公需科目考试试卷(齐全).doc
- 信息应用能力培训技术平台操作(仅思源和黄湖).ppt
- 信息安全工程实践.doc
- 信息技术 八年级下册 教参ppt.ppt
- 信息化教育说课.pptx
- 信息技术有效教学第四章.pptx
- 信息技术应用能力发展测评申报操作资料.ppt
- 信息收集与漏洞扫描实验.doc
- 2024年03月浙江金华义乌市公安局招考聘用184名警务辅助人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx
- 2024年03月河北省科学技术厅事业单位选聘工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx
- 2024年10月贵州兴仁市委政法委公开招聘青年见习人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx
- 2024年03月民政部所属事业单位2024年度公开招考31名应届毕业生笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx
- 2024年03月广东肇庆封开县教育系统赴高校招考聘用教师64人笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx
- [重庆]2025年重庆忠县教育事业单位招聘62人笔试历年参考题库附带答案详解.doc
- 【兵团】2024年新疆生产建设兵团第七师胡杨河市第七师医院医共体招聘工作人员133人笔试历年典型考题及考点剖析附带答案详解.docx
- 2024年10月北京高校大学生就业创业指导中心公开招聘3人笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx
- 【南阳】2024年河南南阳市方城县招才引智事业单位招聘工作人员2人笔试历年典型考题及考点剖析附带答案详解.docx
- 【枣庄】2024年山东枣庄市台儿庄区青年人才优选20人笔试历年典型考题及考点剖析附带答案详解.docx
文档评论(0)