垂直搜索引擎在校园网中的分析与应用-analysis and application of vertical search engine in campus network.docxVIP

  • 4
  • 0
  • 约4.28万字
  • 约 56页
  • 2018-07-05 发布于上海
  • 举报

垂直搜索引擎在校园网中的分析与应用-analysis and application of vertical search engine in campus network.docx

垂直搜索引擎在校园网中的分析与应用-analysis and application of vertical search engine in campus network

IIII目录3.4.4 网页去重的实现 363.5 本章小结 384 索引和查询模块 394.1 索引模块原理 39 HYPERLINK \l _TOC_250002 4.1.1 Lucene 索引文件结构 40 HYPERLINK \l _TOC_250001 4.1.2 Lucene 索引文件的物理结构 414.2 索引模块的实现 42 HYPERLINK \l _TOC_250000 4.3 Lucene 查询模块原理 444.4 查询模块的实现 454.4.1 查询结果排序技术 454.4.2 查询子系统的实现 474.5 系统测试结果 494.6 本章小结: 515 总结与展望 52致谢 53参考文献 54 PAGE PAGE 11 绪论1 绪论1.1 课题背景随着互联网的蓬勃发展,建立在互联网之上的各种应用也层出不穷,随着互联网从 城市到农村的普及,搜索引擎对日常生活也产生越来越大的影响。越来越多的人通过搜 索引擎,从海量的互联网信息中找到和分享全人类的经验与智慧。网民不再需要记住复 杂的网址和路径,只需要记住搜索引擎的入口,提交查询词即可直接找到想要的信息。 搜索引擎已成为破解互联网迷宫的金钥匙。百度、谷歌作为通用搜索引擎的典范[1],深受大家欢迎。但随着用户对搜索引擎的 依赖程度越来越高,对其满意度却越来越低。虽然现今的通用搜索引擎看起来已经非常 的强大,但是当用户查询专业信息时,还是会有大量的时间浪费在搜索上,iResearch 艾瑞市场咨询通过街访和网络调研方式获得的 1809 份有效样本中显示,网民对搜索引 擎不满意的内容主要集中在找不到足够的资料、冗余信息多、有价值信息过少等多个方 面。而在艾瑞发布的《个人门户发展趋势研究报告》显示, 57.9%的网民对搜索引擎返 回结果中含的冗余信息过多而不满。 所以要想从互联网上获取有价值的专业信息,就 必须对通用搜索引擎技术进行改进,用专门的搜索引擎来获取专业性的信息,垂直搜索 引擎的出现正好解决了此类问题,它将在未来的搜索中发挥更大的作用[2]。垂直搜索(Vertical Search)引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细 分和延伸,是对网页库中的某类专门的信息进行一次整合。垂直搜索引擎和通用搜索引 擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,然后将这些数据存储到数据库,进行进一步的加工处理,如去噪、去重、分词等,最后索引再以搜索的方式满足用户的需求[3]。 在网络迅猛发展的同时,校园网的建设和使用也日益增加,使用通用搜索引擎来获取校园网上的相关信息效率并不高。如何检索这些校园网的信息也成为了信息检索的重 要内容。目前,面向校园网的搜索引擎的研究还并不多,本文尝试在对垂直搜索引擎的 一系列关键技术进行研究和探索的基础上,完成了中文校园网的垂直搜索引擎的开发。 通过该方法,可以做出适合搜索各高校公用信息的搜索引擎。1.2 研究现状搜索引擎的前身是在 1990 年由蒙特利大学的学生 Alan Emtage 发明的 Archie[4]。以 Archie 为基础美国内华达 System Computing Services 大学于 1993 年开发了与之相似的 搜索工具,该搜索工具可以检索文件和网页,可以说是最初的搜索引擎。1994 年 7 月,西安科技大学硕士学位论文MichaelMauldi 通过将 JohnLeavit 的蜘蛛程序引入到索引程序中创建了第一个现代意义上的搜索引擎 Lycos[5],这以后随着互联网技术的不断发展,产生了更新更强的搜索引 擎,其中的代表是 Yahoo、AltaVista 等搜索引擎产品。当时的互联网信息没有现在的庞 大,网络传输的速度较慢,页面数据类型不是很复杂,这类搜索引擎主要是以提高整个 Web 的覆盖率为目标,以关键字及目录式搜索的形式为用户提供服务[31,这类搜索引擎 也称为目录式搜索引擎。随着互联网的快速发展及其信息量的膨胀,目录式搜索引擎需要人工参与,这导致 其在处理信息速度方面远远不能满足用户的要求,虽然用户提交查询请求后,搜索引擎 能够返回相当多的查询结果,但是用户依然难以找到需要的完整信息,其完整性和准确 性不能满足需求。为了使用户能够得到更加满意的反馈结果,第二代搜索引擎通过超级 链接分析技术以及网络蜘蛛来自动采集 Web 上的信息,有效地加快了信息处理速度, 这种搜索引擎的主要代表是 Google。到目前为止,主流搜索引擎基本是属于横向的水平型搜索引擎,在现有的技术水平 基础上,横向水平的搜索引擎难以兼顾搜索信息量的完整性以及查询信息的准确性,影 响了搜索引擎的查找效率。第三代搜索引擎力求在自然语言处理、机器自动学习技术、 数据挖掘

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档