- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Ajax+Lucene构建搜索引擎的设计和实现的论文.doc
基于Ajax+Lucene构建搜索引擎的设计和实现的论文
摘要
通过搜索引擎从互联网上获取有用信息已经成为人们生活的重要组成部分,lucene是构建搜索引擎的其中
一种方式。搜索引擎系统是在.平台上用c#开发的,数据库是mssqlserver2000。主要完成的功能有
:用爬虫抓取网页;获取有效信息放入数据库;通过lucene建立索引;对简单关键字进行搜索;使用ajax
的局部刷新页面展示结果。
论文详细说明了系统开发的背景,开发环境,系统的需求分析,以及功能的设计与实现。同时讲述了搜索
引擎的原理,系统功能,并探讨使用ajax与服务器进行数据异步交互,从而改善现有的icrosoftvisualstudio
.2003作为开发平台,开发语言选择了c#;数据库采用microsoftsqlserver2000)。由于lucene不
是完整的搜索引擎程序,只为搜索引擎应用提供了工具包,在asp.平台中,可使用lucene.这个对
lucene兼容的库。使用lucene.协助完成搜索引擎相关的网页爬虫与抓取,为文档建立索引,关键词搜
索的功能,通过ajax优化系统,完成页面的局部刷新功能,给用户好的体验。
2lucene.构建搜索引擎原理
2.1全文搜索引擎
2.1.1搜索引擎的分类
获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。真正意义上的搜
索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引
,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的
网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度
排列。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索和分类目录。
全文搜索引擎通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户
查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索来源的角度,全文搜索引擎
又可细分为两种,一种是拥有自己的检索程序(indexer),俗称“蜘蛛”(spider)程序或“机器人”
(robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的
数据库,并按自定的格式排列搜索结果。
分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网
易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录。
2.1.2搜索引擎的工作原理
搜索引擎的原理,可以看作三步:从互联网上抓取网页,建立索引数据库,在索引数据库中搜索。
全文搜索引擎的“网络蜘蛛”能够扫描一定地址范围内的网站,并沿着网络上的链接从一个网页到另一
个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。
网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建
立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的
检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页
的索引,并按一定规则呈现给我们。不同的搜索引擎,网页索引数据库不同,搜索结果也就不尽相同。
利用能够从互联网上自动收集网页的spider程序,自动访问互联网,并沿着网页中的所有url爬到其它网
页,重复这过程,并把爬过的所有网页收集回来。然后建立索引数据库,由分析索引程序对收集回来的网
页进行分析,提取相关网页信息(包括网页所在url、编码类型、页面内容包含的关键词、关键词位置、
生成时间、大小、与其它网页的链接关系等),然后用这些相关信息建立网页索引数据库。接下来在索引
数据库中搜索排序,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的
所有相关网页。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户
。搜索引擎只能搜到它网页索引数据库里储存的内容。
2.2lucene与搜索引擎
lucene是一个全文信息检索工具包,为应用程序提供索引和搜索功能。和javalucene兼容的lucene.
可以用在.平台。lucene能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的
文本的,lucene就能对你的文档进行索引和搜索。比如你要对一些html文档,pdf文档进行索引的话你就
首先需要把html文档和pdf文档转化成文本格式的,然后将转化后的内容交给lucene进行索引,然后把创
建好的索
文档评论(0)