WWW网络信息搜索技术叙述.docVIP

下载本文档

3
0
约5.22千字
约 8页
2021-07-07 发布于四川
举报
版权申诉

WWW网络信息搜索技术叙述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第 PAGE 第 PAGE 1 页共 NUMPAGES 1 页免责声明：图文来源网络征集，版权归原作者所有。若侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除！谢谢！ WWW网络信息搜索技术叙述摘要：本文针对网络搜索引擎工作中的重点技术作出详尽的阐述，它包括Ｒobot程序、索引数据库、检索程序三个方面。通过他们来概述WWW网络信息检索技术的发展状况。关键词：Ｒobot程序、数据索引、遍历算法、相关性 Theabstractsofinformationretrievalsontheworldwideweb Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechniques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem. Keywords:Robot,Indces,Revelance,arithmetic 随着互联网的发展，网络信息不断爆炸式的扩张，网民怎么才能从这样海量的信息中找到他们所需要的信息呢？搜索引擎，这是目前为止，世界上最流行的一种准确获得信息的一种工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、网络指南针、北大天网和华好网景的ChinaOK等等。这些都是世界上非常著名的搜索引擎。他们都是通过网络机器人搜集网络信息，建立索引数据库，并且不但的更新，通过一定的相关性算法，对用户提供的请求作出响应，并按一定的次序输出高质量的信息。它的主要由下面三个部分组成：蜘蛛程序、索引数据库、检索程序。三个部分协调一致，其工作原理（图1）如下： 1Ｒobot技术程序Ｒobot是一种计算机的程序,可以自动地在网络中穿梭,该程序最重要的功能是使用索引策略,也就是查找网站和网页的次序。可以用题目、ＵＲＬ、关键词进行索引,也可以是以上几项的某种组合。由于Ｉｎｔｅｒｎｅｔ的数据量大,在现有的机器和网络条件下,搜索引擎只能对部分Ｉｎｔｅｒｎｅｔ上的资料进行采集;加上搜索的索引策略不同,所以对相同关键词的搜索在不同的搜索器上可以有截然不同的结果。如果把整个Ｉｎｔｅｒｎｅｔ看作是一个图或一棵树的话,可以发现Ｒｏｂｏｔ技术的基本工作原理和人工智能中的搜索树一样,这在计算机中可以方便地使用递归方法实现,具体如下: (1)根据首页进行搜索,相当于搜索树的根; (2)根据首页的第1个链接到下一个页面; (3)重复(1)和(2);(4)到某页已经没有链接,回退上一级页面的下一个链接,如此循环往复。但若要建立全面的索引数据库,必须对ＷＷＷ系统进行遍历。我们可以进行这样假设:将ＷＷＷ作为一个有向图处理,将页面看作图中的节点,页面中的超链看作图中的有向边。因此可以使用有向图遍历算法(深度优先或广度优先算法或启发式方式)对其进行遍历。ＷＷＷ是个典型的ＣＳ结构系统,所以可在一台主机上完成ＷＷＷ遍历。遍历一般采用以下3种方法: (1)定一个种子ＵＲＬ,Ｒobot从种子ＵＲＬ开始对ＷＷＷ遍历; (2)定一组不同类别、被访问频率高的ＵＲＬ,Ｒobot从这些ＵＲＬ开始遍历; (3)据域名或ＩＰ地址将ＷＷＷ空间划分为多个子空间,运行多个Ｒobot程序并行地在不同子空间中进行遍历。在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Ｒobot可以系统地、周期性地访问ＷＷＷ,从而建立较为全面的索引库,并能保持对库的不断更新。在遍历算法中，一般用到了两种方式，深度优先和广度优先两种基本的搜索策略。Robit以URL列表存取的方式决定搜索策略： (1)先进先出，则形成广度优先搜索。当起始列表包含有大量的Ｗｅｂ服务器地址时，广度优先搜索将产生一个很好的初始结果，但很难深入到服务器中去。 (2)先进后出，则形成深度优先搜索。这样能产生较好的文档分布，更容易发现文档的结构，即找到最大数目的交叉引用在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Ｒobot可以系统地、周期性地访问ＷＷＷ,从而建立较为全面的索引库,并能保持对库的不断更新。在遍历的过程中,为了提高其效率,可以融入人工智能的方法使其变得智能化,以下为可行的方法:

您可能关注的文档

文档评论（0）

美鑫可研报告 + 关注: 官方认证

服务提供商

我们是专业写作机构，多年写作经验，专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务。可行性研究报告，实施方案，商业计划书，社会稳定风险评估报告，社会稳定风险分析报告，成果鉴定，项目建议书，申请报告，技术报告，初步设计评估报告，可行性研究评估报告，资金申请报告，实施方案评估报告

咨询作者（257人已咨询）已休息

认证主体成都慧辰星信息科技有限公司

IP属地四川

统一社会信用代码/组织机构代码: 91510104MA69XDD04C

1亿VIP精品文档

更多 >

WWW网络信息搜索技术叙述.docVIP