基于JAVA搜索引擎设计与实现.docVIP

下载本文档

148
0
约4.65千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于JAVA搜索引擎设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于JAVA搜索引擎设计与实现

基于JAVA搜索引擎设计与实现　　摘要：在浩瀚无边的网络资源中，特别是院校等自建网站的大型单位中，信息检索是一件很困难的工作，而建立搜索引擎显得尤为重要。文章阐述在广域网或局域网下建立信息检索的技术描述，从四个方面进行系统分析。为了使大家加深对信息检索的理解，从原理上解释从指定的Web页面中按照超连接进行解析、搜索，并把搜索到的每条结果进行建立索引。然后通过Web服务器接受客户端请求后，将关键字用ICTCLAS.dll中文切词工具进行切割，将关键字列表在索引中搜索出所匹配的结果，并将其显示给客户。此外，还利用Ajax等一些技术增加了一些自动提示的效果，使得搜索界面更加人性化。　　关键词：搜索引擎；网络蜘蛛；Lucene；中文切词　　引言　　面对浩瀚的网络资源，各区间之间达到资源共享，为尽快达到用户索取资源的目的性而建立搜索引擎，毫不夸张的说所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。伴随着网络的发展，搜索引擎主要经历了三个发展时期。从1994年初始，在“求全”的基础上开展应用，反应速率较慢。从1966年出现分布式方案，采取机器抓取技术，大大提高了检索速度。在2000年左右，在改进二代技术基础上，增加了互动性和个性化，采用自动分类、自动聚类、区域智能识别等技术，成为当今主流搜索引擎技术，提高用户应用效率。　　1 搜索引擎的结构　　1.1 搜索引擎系统概述　　搜索引擎是根据用户的查询请求，按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度，搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。　　网络机器人程序建立Lucene索引从SQL中搜索信息Tomcat服务器Lucene索引数据库浏览器JSP网络机器人程序、文档网络、机器人程序，建立Lucene索引从SQL中搜索信息Tomcat服务器Lucene索引数据库浏览的机器人程序系统结构图。　　1.2 搜索引擎的构成　　搜索引擎的工作原理主要指输入一定规则，在相应的数据中抓取存储，进行预处理，组织排名调用索引库数据获取信息。　　1.2.1 网络蜘蛛　　网络蜘蛛也称为“网络机器人”（Spider），用Myeclipse、MysqL开发，采用Spring+Struts+Hibernate框架构成的系统。　　1.2.2 索引与搜索　　采用索引技术，采用NON-CLUSTERED方法，生成关键词到URL，并以特定数据结构存储在方式。高度注意提高信息查询的精度，利用信息机制进行过滤和个性化服务，采用分布式结构来提高系统规模和性能返回用户的方式。　　1.2.3 Web服务器　　Web 服务器也被称为HTTP服务器，它通过HTTP协议与客户端通信，采取超文本连接的概念，利用Blog、Rss、Psdcasting、SNS、WIKI、Page Rank等技术任，使资源比较直观的表现出来。　　1.3 搜索引擎的主要指标及分析　　搜索引擎的主要指标有响应时间、召回率、准确率、相关度等。这些指标决定了搜索引擎的技术指标，搜索引擎的技术指标决定了搜索引擎的评价标准。具有较快的反应速度和高召回率、准确率是衡量搜索引擎的重要指标，而实现此功能是需要搜索引擎技术指标来保障的。　　2 网络机器人　　2.1 网络机器人概念　　网络机器人称Spider程序，是专业Bot程序的一种，用于查找大量的Web页面。　　2.2 网络机器人的结构分析　　Internet内存有很多协议，系统层中的协议较为复杂。网页是建立在系统层基于HTTP（Hypertext Transfer Protocol）协议基础上的，而TCP/IP（Transmission Control Protocol/Internet Protocol）是HTTP的基础协议，因此网络机器人就是一种Socket协议。　　2.2.1 网络机器程序结构　　Spider在不同网页之间跳转，必须找到一个关键点，也就是页面上的超连接。网页代码由网络机器人解析，分解页面内的超连接，通过内部递归结构和非递归结构这两种结构实现Spider程序。URL在同一时间只能在一个队列内，这种状态称为URL状态。　　图1表示URL队列工作流程，Spider在URL被加入等待队列中程序被激活运行，Spider程序会按指定方式排序分析网页中URL，直到无列队时工作停止。　　2.2.2 Spider程序构造　　只有了解Spider程序工作原理及功能扩展，才能构建出高效的Spider程序。　　Spider类：这是一个实现了Runnable的类，以便实现多线程提高性能。　　此外Spi