搜索引擎--毕业论文.doc

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎--毕业论文

毕 业 论 文 注:由于本网站上传不了源代码,而且这个论文是本人花了半年做的,被评为学校优秀设计,所以下载了我的论文的朋友需要源代码的发邮件到我的邮箱dmin1216@163.com索取 基于L的全文搜索 摘 要 网络爬虫,又叫网络蜘蛛,是一种采集互联网信息和提供搜索服务的系统。本设计实现的网络爬虫基于Lucene.NET平台开发,可以对特定的网页进行抓取和分析,提取如网页标题、网页内容、网页描述等有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉一些如html标签、javascript代码等无用信息。在前台提供给用户友好的搜索界面,通过搜索引擎对索引文件进行查询,尽可能高效的、准确的为用户提供信息。 关键词:网络爬虫 Lucene.NET 搜索引擎 目 录 1.前言 6 2 相关技术介绍 7 2.1 Lucene 7 2.1.1 L概述 7 2.1.2 L的特点 7 2.1.3 L索引的建立 8 2.1.4 L的搜索 8 2.2 Visual Studio 2008 8 2.2.1 Visual Studio 2008简介 8 2.2.2 Visual Studio 2008的新特性 9 2.2.3 Linq 简介 9 2.3 多线程 9 2.3.1 同步线程 9 2.3.2 多线程与并发管理 10 2.4 反射 10 3 方案论证 10 3.1 系统方案 10 3.2 开发与设计工具选择 11 3.2.1 开发工具 11 3.2.2 硬件要求 11 4 系统总体设计 12 4.1 需求分析 12 4.1.1 功能需求 12 4.1.2 性能需求 12 4.1.3 数据管理能力要求 13 4.1.4 故障处理要求 13 4.1.5 用例分析与用例图 13 4.2 系统规划 14 4.2.1 系统物理架构 14 4.2.2 系统逻辑架构 15 4.2.3 系统数据库设计 16 4.2.4 系统模块设计 18 4.3 系统设计 19 4.3.1 爬虫程序设计 19 4.3.2 程序分层设计 27 4.3.3 前台搜索设计 29 5 系统实现 31 5.1 系统与环境配置 31 5.2 系统实现 31 5.2.1 初始化爬虫设置 31 5.2.2 爬虫索引管理 32 6 系统测试和部署 33 6.1 系统测试 33 6.2 系统部署 33 6.2.1 系统要求 33 6.2.2 程序部署 34 7 结论 35 参 考 文 献 36 Abstract 37 致 谢 38 仲恺农业工程学院毕业论文(设计)成绩评定表 39 1.前言 在互联网发展的最初阶段,网站的数量相对较少,信息查询比较容易。随着互联网的迅猛发展,用户很难找到所需的资料。这时,对搜索引擎的需求就出现了,一些为满足大众信息搜索需求的专业搜索网站也应运而生。搜索,这两个字无疑是当今互联网业界最为流行的字眼之一。 在这样的背景下,搜索引擎的技术迅速发展。Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域间。同时,伴随着Web 2.0 的普及,网络信息的膨胀速度呈指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要加入全文检索的功能。 搜索引擎是专门提供信息查询的网站。它们大都是通过对互联网上的网站进行检索,从中提取相关的信息,从而建立起庞大的数据库。用户可以很方便的通过输入一定的文字,查找任何所需要的资料,其中当然也包括各种商业信息。搜索引擎是网站建设中针对用户使用网站的便利性所提供的必要功能,同时也是研究网站用户行为的一个有效工具。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。因此,对于内容丰富的大型信息类网站和产品线丰富的在线销售型网站来说,提供一般性的全文检索是远远不够的,很有必要开发能够实现个性化需求的高级搜索功能,这也是体现网站的网络营销功能的重要方面。) 2 相关技术介绍 2.1 Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档