搜索引擎在高校图书馆信息服务中应用.docVIP

下载本文档

1
0
约2.68千字
约 6页
2018-06-20 发布于福建
举报
版权申诉

搜索引擎在高校图书馆信息服务中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎在高校图书馆信息服务中应用

搜索引擎在高校图书馆信息服务中应用　　【摘要】介绍了一种新型的校园网络环境下的搜索引擎。从搜索引擎所需技术的各个方面对这种搜索引擎的架构，具体实现方法进行详细的阐述。包括最新的P2P技术，网络架构，搜索引擎系统架构，中文分词技术，数据提交，用户接口等等。侧重介绍了这种搜索引擎的实现模型和原理，具体实现环节还需要详细的实践和理论考证。　　【关键词】搜索引擎；P2网络架构系统架构；中文分词；知识挖掘　　随着信息的发展和科技的进步，人们将现实世界中存在的信息，如报纸，期刊，书籍等都放到网上去，同时也不停地在网络上生产出数之不尽的新信息，整个网络正在堆积成一个超级大型数据库。如何在浩瀚如海的信息空间里，快速查找并获取自己所需的信息已经成为信息时代重要需求。　　搜索引擎成了最受人们关注的焦点之一，许多公司纷纷架起了搜索引擎，对各种资源信息进行综合、分析，以解决人们在日常生活中遇到的各种问题。但是对于民办高校来说，这项工作相对比较落后。如何充分发挥高校图书馆内部资源的优势，实现更大范围资源共享，这是新型搜索引擎所要解决的问题。　　一、相关技术原理　　1.校园网络环境下的搜索引擎和WEB搜索引擎的区别　　数据量：校园网络环境下的搜索引擎面向的是校园网络资源信息，一般的索引库规模多在GB级，但是Internet搜索需要处理的是成千上万的网页信息，搜索引擎的方法是采用服务器集群和分布式计算技术。　　搜索相关性：一般的搜索引擎采用的多是网页链接分析技术。像GOOGLE采用的就是Pagerank和Hilltop算法相结合的方式，根据互联网上网页被链接次数作为重要性评判的依据。但这里的搜索引擎的数据源中相互链接的程度不是很高，所以就不能作为判别重要性的依据，只能关于内容的相关性排序而已[1]。　　网络安全性：网络上搜索引擎的数据来源都是互联网上公开的信息，而且除了正文内容以外，其他信息都不重要，但这里的搜索引擎的数据源都是来自校园网络各个主机内部的信息，其中可能包含了个人隐私，以及一些个人重要信息[2]。　　内容多样性：Web搜索引擎是基于HTTP协议，对HTML，TXT等进行检索。而这里的搜索引擎是基于P2P技术进行网络传输，搜索的文件类型包括DOC，PDF，RAR等等各种格式，进一步提高网络资源的共享。　　2.P2P技术　　P2P是peer-to-peer的缩写，意为对等网络。其在加强网络上人的交流，文件交换，分布计算等方面大有前途。简单的说，P2P直接将人们联系起来，让人们通过互联网直接交流。P2P使得网络上的沟通变得容易、更直接共享和交流，真正地消除中间商。P2P使人们可以直接连接到其他用户的计算机、交换文件，而不是像过去那样连接到服务器去浏览与下载。　　校园网络环境下的信息交换，由于其网络覆盖面较小，网络信息量较少，网络传输速度快等特点，很适合采用P2P技术进行信息交换。　　假如某个学生需要从网络上搜索有关于“搜索引擎”资料，他只要在搜索引擎的用户界面输入“搜索引擎”，选择*.doc，*.pdf等等格式，然后敲下回车，信息首先提交到服务器上，服务器首先对校园网络资源数据库进行检索，查找到相关的记录，然后返回给用户资源所在的主机名，路径。当用户点击链接时，直接就和远程的计算机进行信息交换，不再需要通过服务器。当然如果找不到可用的资源，还可以直接连接到图书馆的数据库，进行检索。　　3.中文分词技术　　分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分析的一种技术[3]。中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来理解哪些是词，哪些不是，但是计算机怎么理解了，这就是中文分词技术需要解决的问题。现有的分词技术有三种：　　（1）字符串匹配的分词方法：是常用的分词法，百度就是用此种分词。基于字符串匹配的分词方法，从左到右，或者从右到左拆分。　　（2）词义分词法：这种就是一种机器语音判断的分词方法，进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词。　　（3）统计分词法：根据词组的统计，就会发现两个相邻的字出现的频率最多，那么这个词就很重要。就可以作为用户提供字符串中的分隔符，这样来分词。　　校园网络环境下的搜索引擎对中文分词技术和传统WEB搜索引擎的类似，因此，可以采用以上所叙的方法。　　二、系统结构　　搜索引擎系统架构，传统的搜索引擎由3大部分构成，网上机器人（Robot Spiders），它是一种穿梭于WWW空间的计算机软件，自动从一个网页跨越到另一个网页，自动追寻超文本的链接，对信息进行采集，标引，然后发送回服务器。索引数据库（Index Database），存放经过处理的机器人采集和标引的信息记录。检索代理