C#015基于Ajax+Lucene构建搜索引擎的设计和实现2.docVIP

C#015基于Ajax+Lucene构建搜索引擎的设计和实现2.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Ajax+Lucene构建搜索引擎的设计与实现 摘 要 通过搜索引擎从互联网上获取有用信息已经成为人们生活的重要组成部分,Lucene是构建搜索引擎的其中一种方式。.Net平台上用C#开发的,数据库是MSSQL Server 2000。主要完成的功能有:用爬虫抓取网页;获取有效信息放入数据库;通过Lucene建立索引;对简单关键字进行搜索;使用Ajax的局部刷新页面展示结果。 论文详细说明了系统开发的背景,开发环境,系统的需求分析,以及功能的设计与实现。同时讲述了搜索引擎的原理,系统功能,并探讨使用Ajax与服务器进行数据异步交互,从而改善现有的Web应用模式。 关键词:L;异步更新;Ajax;搜索引擎 目 录 1 引言 1 1.1 课题背景 1 1.2 国内外研究现状 1 1.3 本课题研究的意义 1 1.4 本课题的研究方法 1 2 L构建搜索引擎原理 2 2.1 全文搜索引擎 2 2.1.1 搜索引擎的分类 2 2.1.2 搜索引擎的工作原理 2 2.2 Lucene与搜索引擎 3 2.3 索引和搜索 4 2.4 Ajax技术 4 3 需求分析 5 3.1 同步环境 5 3.2功能需求 6 3.3 性能需求 6 3.4 输入输出要求 7 3.5 运行需求 7 4 方案设计 7 4.1 搜索引擎模型 7 4.2 数据库的设计 7 4.3 模块设计 8 5 系统实现 10 5.1 开发环境 10 5.2 关键代码详解 10 5.2.1 代码结构 10 5.2.2 爬虫部分 11 5.2.3索引生成 12 5.2.4页面查询 13 6 测试 14 6.1 功能测试 14 结 论 16 参考文献 17 致 谢 18 声 明 3 需求分析 3.1 同步环境 本系统的同步环境如图3: 图3 同步环境 检索服务器通过Internet检索Web页面。 3.2功能需求 本设计要实现的功能: 能够对Internet上的网页内容、标题、链接等信息按链式收集。 能够实现一定链接深度的网页收集,也就是在Internet上实现一定的URL级的数据收录。 对收集到的数据存入MSSQL Server 2000等关系型数据库中、或者存入文本文件中。 网站信息库中的信息会不断的变动,对收集到的数据需要定期的自动维护,做到定期的删除、从新收集。 对收集到的数据进行关键词的检索。 对检索出的数据要可定位性,即可以显示对数据的出处的链接。 实现中英文分词功能,能够按中文或者英文单词检索数据。 实现无刷新的显示搜索结果,对搜索用时的计算、显示,关键字高亮显示等。 逻辑搜索功能比如“中国”AND“北京”AND NOT(“海淀区”AND“中关村”)。 3.3 性能需求 精度: 1.1对收集到的信息需要一定的完整性,即对链接层次里的每个链接页面都能够收集得到,并写入收集的存储区里。 1.2对搜索出的内容需要包含有关键字信息 时间特性要求: 2.1数据收集时,因为是对Internet网上Web信息的收集,并且采用URL级链式的网页收集。收集数据时不能够出现无响应的等待。 2.2搜索时响应时间应不超过3秒,无论搜索的记录多少。 灵活性 3.1具有良好的中文切词功能。 3.4 输入输出要求 输入:搜索的关键字。 处理:去前后空格,关键字,查询索引库。 输出:Web页面上显示搜索信息。 3.5 运行需求 1.硬件环境需求: 需要使用专用服务器,P4以上,512M以上内存,80G以上硬盘;Internet网络连接。 2.软件环境: 源端:Windows 2003/XP操作系统、MSSQL Server 2000数据库、IIS5.0、.NET Framework1.1。 4 方案设计 结合前面的同步原理,以及需求的介绍,下面给出同步的方案设计。 4.1 搜索引擎模型 模型包括爬虫、索引生成、查询以及系统配置部分。爬虫包括:网页抓取模块、网页减肥模块、爬虫维持模块。索引生成包括:基于文本文件的索引、基于数据库的索引。查询部分有Ajax、后台处理、前台界面模块。如图4所示。 图4 系统模块 图5.1 功能流程图 5.2.2 爬虫部分 这部份的功能就是从输入的URL开始遍历各个相关的网页,它包括三个功能模块:网页抓取模块、网页减肥模块、爬虫维持模块。 首先定义一些变量用于保存抓取到的网页信息,urlList用于保存当前页面上的URL集合。然后根据全局变量url抓取此URL的网页信息到字节流变量里,经过转码后读取到变量PageString里,下步通过函数GetHttpUrl(PageString)对PageString中的URL标记进行提取并返回到urlList变量里,函数GetTitle(PageString)、parseScript(PageString)

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档