网站大量收购闲置独家精品文档,联系QQ:2885784924

垂直搜索引擎在校园网中的研究与应用.pdf

垂直搜索引擎在校园网中的研究与应用.pdf

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
论文题目:垂直搜索引擎在校园网中的研究与应用 专 业:通信与信息系统 硕 士 生:姜美英 (签名) 指导教师:冀汶莉 (签名) 摘 要 随着互联网的迅猛发展,从海量数据信息中搜索有效信息已经成为一个重要的问 题。目前虽然己经有google、百度这些优秀的通用搜索引擎,但这些搜索引擎对于局域 网内信息无法完全、准确的获取,同时信息的实时性也无法保证,所以它们并不能很好 的准确检索具有行业背景的信息。 目前高校校园网的建设已经比较成熟,校园网内部的公有信息大幅增长,例如本科 及研究生的招生及宣传信息。如果使用通用搜索引擎,用户无法获取较为有效的校园网 相关信息。因此,为了提高信息检索的效率,本文设计并实现了适用于高校校园网的垂 直搜索引擎系统。 本文研究并实现了一个应用于高校校园网的垂直搜索引擎系统。首先阐述了通用搜 索引擎的工作原理和主要组成部分,进而分析了垂直搜索引擎的实现原理。论文设计并 完成了网页抓取模块、预处理模块、索引和查询模块等搜索引擎系统的 4 个核心模块。 其中在网页抓取模块中实现了网页下载以及将已访问过的 URL 过滤的功能;在预处理 模块中比较了两种方案,选择较优的一种进行了网页去噪,同时完成了中文分词、网页 去重工作。针对 Lucene 中文分词效果比较弱这一特点,对中文分词技术进行了研究, 针对最大匹配法的缺陷对中文分词进行了改进,提高了搜索引擎的查询准确率;在索引 和查询模块中,建立了倒排索引并且使用了优于 Lucene 中自带的排序算法的PageRank 算法进行网页排序。 最后对系统进行实验验证。从与百度搜索结果的实验对比中可以看出,本系统查准 率较高,能够更好的满足想了解校园网信息的用户的需求。 关 键 词:垂直搜索引擎;校园网;网络爬虫;Lucene 研究类型:应用研究型 Subject :The Research and Application of a Vertical Search Engine in Campus Network Specialty :Communication and Information System Name :Jiang Mei-Ying (Signature) Instructor :Ji Wen-Li (Signature) ABSTRACT With the rapid development of the Internet, it has become an important issue to search information efficiently from massive data information. Although there have been many outstanding general search engines such asGoogle and Baidu , they can not fully and accurately collect the information on the LAN and guarant the efficiency of information,which make them not Retrieve information based on industry. The construction of Campus Network in Colleges and Universities is more mature than ever. Public information, such as the information of undergraduate

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档