垂直搜索引擎在校园网中的研究与应用-通信与信息系统专业论文.docxVIP

垂直搜索引擎在校园网中的研究与应用-通信与信息系统专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎在校园网中的研究与应用-通信与信息系统专业论文

From the experimental results it can be seen that the system with higher precision than Baidu search results is able to meet the needs of users who want to understand the campus net information better. Keywords : Vertieal Seareh Engine;Campus Network; Web Crawler;Lucene Thesis : Application Research 目录 目 录 1 绪论 1 1.1 课题背景 1 1.2 研究现状 1 1.3 论文工作 3 1.4 论文结构 4 2 搜索引擎概述 5 2.1 通用搜索引擎 5 2.1.1 通用搜索引擎的分类 5 2.1.2 通用搜索引擎的工作原理 6 2.2 垂直搜索引擎 7 2.2.1 垂直搜索引擎与通用搜索引擎的比较 7 2.2.2 垂直搜索引擎的系统设计 7 2.2.3 关键技术 8 2.3 相关开源技术 Lucene 介绍 10 2.4 本章小结 11 3 网页抓取及预处理模块 12 3.1 网页抓取模块原理 12 3.1.1 网络爬虫爬行策略 12 3.1.2 URL 消重 14 3.2 网页抓取模块的设计与实现 16 3.2.1 网络爬虫的实现 16 3.2.2 URL 消重的实现 20 3.3 预处理系统原理 21 3.3.1 网页结构化 21 3.3.2 网页去噪 22 3.3.3 中文分词 23 3.3.4 网页去重 26 3.4 预处理系统的设计与实现 27 3.4.1 网页结构化的实现 27 3.4.2 网页去噪的实现 28 3.4.3 中文分词的实现 32 目录 3.4.4 网页去重的实现 36 3.5 本章小结 38 4 索引和查询模块 39 4.1 索引模块原理 39 HYPERLINK \l _TOC_250002 4.1.1 Lucene 索引文件结构 40 HYPERLINK \l _TOC_250001 4.1.2 Lucene 索引文件的物理结构 41 4.2 索引模块的实现 42 HYPERLINK \l _TOC_250000 4.3 Lucene 查询模块原理 44 4.4 查询模块的实现 45 4.4.1 查询结果排序技术 45 4.4.2 查询子系统的实现 47 4.5 系统测试结果 49 4.6 本章小结: 51 5 总结与展望 52 致谢 53 参考文献 54 1 绪论 1 绪论 1.1 课题背景 随着互联网的蓬勃发展,建立在互联网之上的各种应用也层出不穷,随着互联网从 城市到农村的普及,搜索引擎对日常生活也产生越来越大的影响。越来越多的人通过搜 索引擎,从海量的互联网信息中找到和分享全人类的经验与智慧。网民不再需要记住复 杂的网址和路径,只需要记住搜索引擎的入口,提交查询词即可直接找到想要的信息。 搜索引擎已成为破解互联网迷宫的金钥匙。 百度、谷歌作为通用搜索引擎的典范[1],深受大家欢迎。但随着用户对搜索引擎的 依赖程度越来越高,对其满意度却越来越低。虽然现今的通用搜索引擎看起来已经非常 的强大,但是当用户查询专业信息时,还是会有大量的时间浪费在搜索上,iResearch 艾瑞市场咨询通过街访和网络调研方式获得的 1809 份有效样本中显示,网民对搜索引 擎不满意的内容主要集中在找不到足够的资料、冗余信息多、有价值信息过少等多个方 面。而在艾瑞发布的《个人门户发展趋势研究报告》显示, 57.9%的网民对搜索引擎返 回结果中含的冗余信息过多而不满。 所以要想从互联网上获取有价值的专业信息,就 必须对通用搜索引擎技术进行改进,用专门的搜索引擎来获取专业性的信息,垂直搜索 引擎的出现正好解决了此类问题,它将在未来的搜索中发挥更大的作用[2]。 垂直搜索(Vertical Search)引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细 分和延伸,是对网页库中的某类专门的信息进行一次整合。垂直搜索引擎和通用搜索引 擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取 成特定的结构化信息数据,然后将这些数据存储到数据库,进行进一步的加工处理,如 去噪、去重、分词等,最后索引再以搜索的方式满足用户的需求[3]。 在网络迅猛发展的同时,校园网的建设和使用也日益增加,使用通用搜索引擎来获 取校园网上的相关信息效率并不高。如何检索这些校园网的信息也成为了信息检索的重 要内容。目前,面向校园网的搜索引擎的研究还并不多,本文尝试在对垂直搜索引擎的 一系列关键技术进行

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档