[讨论搜索引擎的外文翻译.docVIP

下载本文档

4
0
约 6页
2017-01-10 发布于北京
举报
版权申诉

[讨论搜索引擎的外文翻译.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[讨论搜索引擎的外文翻译

第二届信息技术全国学术挑战和机会研讨会论文集探讨M.P.S.Bhatia*, Divya Gupta** *内塔吉萨布哈什印度德里大学**德里工程纪念中学随着网络的急剧扩张，knowledge from the Web is becoming gradually importantWeb中提取知识逐渐正在成为受欢迎。这是由于网络的便利性和丰富性信息。通常需要使用搜索引擎爬行,集中爬行,导言本文的其余部分组织如下：第二节中，我们解释了Web爬虫的背景细节。在第3节，我们讨论爬虫的类型，在第4节我们将介绍网络爬虫的工作原理。在第5节，我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的网页的问题。 2.调查网络爬虫网络爬虫几乎同网络本身原谷歌爬虫（在斯坦福大学开发的）组件包括五个功能不同的运行流程。服务器进程读取一个文件的URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器，是单线程的，使用异步I / O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些网页由一个索引程序进行解读，从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件，并将相对的网址进行存储，并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下，因为三至四个爬虫程序被使用，所以整个系统需要四到八个完整的系统。在谷歌将网络爬虫转变成为一个商业成果之后在斯坦福大学仍然在进行这方面的研究。斯坦福WebBase项目已实施一个高性能的分布式爬虫，具有每秒可以下载50至100[21]件文件的能力。赵等人又发展了文件更新频率的模型以报告爬行下载计划的增量。互联网档案馆还利用多台机器来检索网页。每个爬虫程序被分配到64个站点进行检索，并没有网站被分配到一个以上的爬虫。每个单线程爬虫程序读取其指定网站网址列表的种子从磁盘到每个站点的队列，然后用异步I / O来从这些队列同时抓取网页。一旦一个页面下载,爬虫提取包含在其中链接。ebFountain爬虫程序分享了墨卡托结构的几个特点：它是分布式的，连续（作者使用术语“增量“），有礼貌，可配置的。不幸的是，写这篇文章，WebFountain是在其发展的早期阶段，并尚未公布其性能数据。 BASIC TYPES OF SEARCH ENGINE 3.搜索引擎基本类型 4.爬虫的工作原理网络爬虫是搜索引擎必不可少的组成部分；运行一个网络爬虫是一个极具挑战性的任务。有技术和可靠性问题，更重要的是有社会问题。爬虫是最脆弱的应用程序，因为它涉及到交互的几百几千个Web服务器和各种域名服务器，这些都大大超出了系统的控制。网页检索速度不仅由一个人的自己的互联网连接速度，同时也受到了要抓取的网站的速度。特别是如果一个是从多个服务器抓取的网站，总爬行时间可以大大减少，如果许多下载是并行完成。虽然有众多的网络爬虫应用程序，他们在核心内容上基本上是相同的。以下是应用程序网络爬虫的工作过程：（1）、下载网页。（2）、通过下载的页面解析和检索所有的联系。（3）、对于每一个环节检索，重复这个过程。网络爬虫可用于通过对完整的网站的局域网进行抓取。您可以指定一个启动程序爬虫跟随在HTML页中找到的所有链接。这通常导致更多的链接，这之后将再次跟随，等等。一个网站可以被视为一个树状结构看，根本是启动程序，在这根的HTML页的所有链接是根子链接。随后循环获得更多的链接。一个网页服务器提供若干网址清单给爬虫。网络平爬虫开始通过解析一个指定的网页，标注该网页中指向其他网站页面的超文本链接。然后他们分析这些网页之间新的联系，等等循环。网络爬虫软件不实际移动到各地不同的互联网上的电脑，而是像电脑病毒一样通过智能代理进行。每个爬虫每次大概打开大约300个链接。这是检索网页必须的足够快的速度。一个爬虫驻留在一台机器。爬虫只是简单的将的HTTP请求的文件发送到互联网上的其他机器，就像一个网上浏览器的链接，当用户点击。所有的爬虫事实上是自动化追寻链接的过程。网页检索可被视为一个队列处理的项目。当检索器访问一个网页，它提取到其他网页的链接。因此，爬虫置身于这些网址的一个队列的末尾，并继续爬行到下一个网页，然后它从队列的前面删除。资源约束爬行消耗资源：下载网页的带宽，支持私人数据结构存储的内存，来评价和选折网址的CPU，以及存储文本和链接以及其他持久性数据的磁盘存储。机器人协议机器人文件给出排除一部分的网站被抓取的指令。类似地，一个简单的文本文件可以提供有关的新鲜和出版对象的流行信息。此信息允许抓取工具优化其收集的数据刷新策略以及更换对象的政策。元搜索引擎一个元搜索引擎是一种没有它自己