WWW网络信息搜索技术叙述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 PAGE 第 PAGE 1 页 共 NUMPAGES 1 页 免责声明:图文来源网络征集,版权归原作者所有。 若侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除!谢谢! WWW网络信息搜索技术叙述 摘要:本文针对网络搜索引擎工作中的重点技术作出详尽的阐述,它包括Robot程序、索引数据库、检索程序三个方面。通过他们来概述WWW网络信息检索技术的发展状况。 关键词:Robot程序、数据索引、遍历算法、相关性 Theabstractsofinformationretrievalsontheworldwideweb Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechniques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem. Keywords:Robot,Indces,Revelance,arithmetic 随着互联网的发展,网络信息不断爆炸式的扩张,网民怎么才能从这样海量的信息中找到他们所需要的信息呢?搜索引擎,这是目前为止,世界上最流行的一种准确获得信息的一种工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、网络指南针、北大天网和华好网景的ChinaOK等等。这些都是世界上非常著名的搜索引擎。他们都是通过网络机器人搜集网络信息,建立索引数据库,并且不但的更新,通过一定的相关性算法,对用户提供的请求作出响应,并按一定的次序输出高质量的信息。它的主要由下面三个部分组成:蜘蛛程序、索引数据库、检索程序。三个部分协调一致,其工作原理(图1)如下: 1Robot技术程序 Robot是一种计算机的程序,可以自动地在网络中穿梭,该程序最重要的功能是使用索引策略,也就是查找网站和网页的次序。可以用题目、URL、关键词进行索引,也可以是以上几项的某种组合。由于Internet的数据量大,在现有的机器和网络条件下,搜索引擎只能对部分Internet上的资料进行采集;加上搜索的索引策略不同,所以对相同关键词的搜索在不同的搜索器上可以有截然不同的结果。如果把整个Internet看作是一个图或一棵树的话,可以发现Robot技术的基本工作原理和人工智能中的搜索树一样,这在计算机中可以方便地使用递归方法实现,具体如下: (1)根据首页进行搜索,相当于搜索树的根; (2)根据首页的第1个链接到下一个页面; (3)重复(1)和(2);(4)到某页已经没有链接,回退上一级页面的下一个链接,如此循环往复。 但若要建立全面的索引数据库,必须对WWW系统进行遍历。我们可以进行这样假设:将WWW作为一个有向图处理,将页面看作图中的节点,页面中的超链看作图中的有向边。因此可以使用有向图遍历算法(深度优先或广度优先算法或启发式方式)对其进行遍历。WWW是个典型的CS结构系统,所以可在一台主机上完成WWW遍历。 遍历一般采用以下3种方法: (1)定一个种子URL,Robot从种子URL开始对WWW遍历; (2)定一组不同类别、被访问频率高的URL,Robot从这些URL开始遍历; (3)据域名或IP地址将WWW空间划分为多个子空间,运行多个Robot程序并行地在不同子空间中进行遍历。在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Robot可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。 在遍历算法中,一般用到了两种方式,深度优先和广度优先两种基本的搜索策略。Robit以URL列表存取的方式决定搜索策略: (1)先进先出,则形成广度优先搜索。当起始列表包含有大量的Web服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去。 (2)先进后出,则形成深度优先搜索。这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Robot可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。在遍历的过程中,为了提高其效率,可以融入人工智能的方法使其变得智能化,以下为可行的方法:

文档评论(0)

美鑫可研报告 + 关注
官方认证
服务提供商

我们是专业写作机构,多年写作经验,专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务。可行性研究报告,实施方案,商业计划书,社会稳定风险评估报告,社会稳定风险分析报告,成果鉴定,项目建议书,申请报告,技术报告,初步设计评估报告,可行性研究评估报告,资金申请报告,实施方案评估报告

认证主体成都慧辰星信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510104MA69XDD04C

1亿VIP精品文档

相关文档