WWW网络信息搜索技术叙述.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
  摘要本文针对网络搜索引擎工作中的重点技术作出详尽的阐述,它包括R程序、索引数据库、检索程序三个方面。   通过他们来概述网络信息检索技术的发展状况。   关键词R程序、数据索引、遍历算法、相关性,,,,,随着互联网的发展,网络信息不断爆炸式的扩张,网民怎么才能从这样海量的信息中找到他们所需要的信息呢?搜索引擎,这是目前为止,世界上最流行的一种准确获得信息的一种工具。   象、、、、、网络指南针、北大天网和华好网景的等等。   这些都是世界上非常著名的搜索引擎。   他们都是通过网络机器人搜集网络信息,建立索引数据库,并且不但的更新,通过一定的相关性算法,对用户提供的请求作出响应,并按一定的次序输出高质量的信息。   它的主要由下面三个部分组成蜘蛛程序、索引数据库、检索程序。   三个部分协调一致,其工作原理图1如下1R技术程序R是一种计算机的程序,可以自动地在网络中穿梭,该程序最重要的功能是使用索引策略,也就是查找网站和网页的次序。   可以用题目、URL、关键词进行索引,也可以是以上几项的某种组合。   由于Internet的数据量大,在现有的机器和网络条件下,搜索引擎只能对部分Internet上的资料进行采集;加上搜索的索引策略不同,所以对相同关键词的搜索在不同的搜索器上可以有截然不同的结果。   如果把整个Internet看作是一个图或一棵树的话,可以发现Robot技术的基本工作原理和人工智能中的搜索树一样,这在计算机中可以方便地使用递归方法实现,具体如下1根据首页进行搜索,相当于搜索树的根;2根据首页的第1个链接到下一个页面;3重复1和2;4到某页已经没有链接,回退上一级页面的下一个链接,如此循环往复。   但若要建立全面的索引数据库,必须对WWW系统进行遍历。   我们可以进行这样假设将WWW作为一个有向图处理,将页面看作图中的节点,页面中的超链看作图中的有向边。   因此可以使用有向图遍历算法深度优先或广度优先算法或启发式方式对其进行遍历。   WWW是个典型的CS结构系统,所以可在一台主机上完成WWW遍历。   遍历一般采用以下3种方法1定一个种子URL,R从种子URL开始对WWW遍历;2定一组不同类别、被访问频率高的URL,R从这些URL开始遍历;3据域名或IP地址将WWW空间划分为多个子空间,运行多个R程序并行地在不同子空间中进行遍历。   在实际使用中,一般是将这三种方法组合起来使用。   按照上述遍历算法,R可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。   在遍历算法中,一般用到了两种方式,深度优先和广度优先两种基本的搜索策略。   以列表存取的方式决定搜索策略1先进先出,则形成广度优先搜索。   当起始列表包含有大量的Web服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去。   2先进后出,则形成深度优先搜索。   这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用在实际使用中,一般是将这三种方法组合起来使用。   按照上述遍历算法,R可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。   在遍历的过程中,为了提高其效率,可以融入人工智能的方法使其变得智能化,以下为可行的方法1搜索引擎基本信息的采集。   考虑网络中海量的数据,首先选取一些网络的主要节点,使搜索引擎存放某些监控程序到站点中,和站点之间建立一种通信联系,使搜索引擎不必每次更新时都要一个个页面地比较,而是智能地知道自上次访问后哪些页面已更新,直接采集新的页面。   2搜索引擎数据库的建立。   考虑数据库中数据的有用性,可以根据用户的访问频度,建立站点的用户访问频度表格,R查找链接和页面时,要查看该表格,从用户访问频度高的站点开始查找,对上升速度和下降速度特别快的还要特别处理。   搜索引擎的数据库内容是用户经常访问并乐意访问的,使搜索引擎越来越贴近用户。   2索引技术索引技术的目的是理解R所搜索的信息,从中抽取索引项,用于表示文档以及生成文档库的索引表。   索引项有客观索引项和内容索引项两种客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。   内容索引项可以分为单索引项和多索引项或称短语索引项两种。   单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符空格;对于中文等连续书写的语言,必须进行词语的切分。   在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分索引项的提取方法有统计法、概率法和语言学法。  

文档评论(0)

tangtianxu1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档