基于网络蜘蛛原理搜索引擎技术剖析.docVIP

下载本文档

1
0
约2.43千字
约 7页
2018-08-29 发布于福建
举报
版权申诉

基于网络蜘蛛原理搜索引擎技术剖析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网络蜘蛛原理搜索引擎技术剖析

基于网络蜘蛛原理搜索引擎技术剖析　　摘要：主要介绍网络蜘蛛的基本原理及相关技术。　　关键词：网络蜘蛛搜索引擎　　链接深度动态网页　　中图分类号TP393.09 　　文献标识码A 文章编号：1002-2422(2007)05-0006-02 　　　　中文搜索引擎的查全率需保证不遗漏某些重要的结果，而且能找到最新的网页，这需要搜索引擎有一个强大的网页收集器(称为“网络蜘蛛”)，一个优秀的搜索引擎，需要不断的优化网络蜘蛛的算法，提升其性能。主要介绍网络蜘蛛的基本原理及相关技术。　　　　1　网络蜘蛛基本原理　　　　网络蜘蛛即Web Spider，是通过网页的链接地址来寻找网页，从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样循环下去，直到把这个网站所有的网页都抓取完为止。　　在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。深度优先是指网络蜘蛛会从起始页开始，按照每个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。两种策略的区别见图1。　　　　网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。网站的所有者可以通过协议让网络蜘蛛不去抓取。一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索，而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。　　　　2　内容提取　　　　搜索引擎建立网页索引，处理的对象是文本文件。对于网络蜘蛛来说，抓取的网页格式包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用；另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。　　　　(1)doe、pdf等由专业厂商提供的软件生成的文档，会提供相应的文本提取接口。网络蜘蛛只需调用这些插件的接口，就可提取文档中的文本信息和文件其它相关的信息。　　　　(2)HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，在提取文本信息时需要把这些标识符都过滤掉。在识别这些信息的时候，需要同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加租显示、是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时，对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤掉这些无用的链接。过滤这些无效链接需要统计大量的网页结构规律。抽取一些共性，统一过滤，对于一些重要而结果特殊的网站，还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。　　　　(3)对于多媒体、图片等文件，一般是通过链接的锚文本和相关的文件注释来判断这些文件的内容，例如有一个链接文字为“北京大学的照片”，其链接指向一张bmp格式的图片，那么网络蜘蛛就知道这张图片的内容是“北京大学的照片”，这样，在搜索“北京大学”和“照片”的时候都能让搜索引擎找到这张图片。另外，许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解文件的内容。　　　　(4)动态网页一直是网络蜘蛛面临的难题。开发语言的不断增多，动态网页的类型也越来越多，网络蜘蛛比较难于处理的是一些脚本语言(如VBScdpt和JavaScript)生成的网页，如果要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这给网络蜘蛛的抓取带来很大的困难，如果网站设计者希望这些数据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。　　网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好，每发现一种新的类型，就可以把处理方式做成一个插件补充到插件管理服务程序之中。　　　　3　更新周期　　　　由于网站的内容经常在变化，网络蜘蛛也需不断的更新其抓取网页的内容，因此需要网络蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。