讨论搜索引擎的外文翻译.docVIP

  • 11
  • 0
  • 约3.25千字
  • 约 6页
  • 2017-08-22 发布于湖南
  • 举报
第二届信息技术全国学术挑战和机会研讨会论文集探讨M.P.S.Bhatia*, Divya Gupta** *内塔吉萨布哈什印度德里大学**德里工程纪念中学随着网络的急剧扩张,knowledge from the Web is becoming gradually importantWeb中提取知识逐渐正在成为受欢迎。这是由于网络的便利性和丰富性信息。通常需要使用搜索引擎爬行,集中爬行,导言 本文的其余部分组织如下:第二节中,我们解释了Web爬虫的背景细节。在第3节,我们讨论爬虫的类型,在第4节我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的网页的问题。 2.调查网络爬虫 网络爬虫几乎同网络本身 原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。 服务器进程读取一个文件的URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I / O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些网页由一个索引程序进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因为三至四个爬虫程序被使用,

文档评论(0)

1亿VIP精品文档

相关文档