2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级).docVIP

  • 2
  • 0
  • 约5.97千字
  • 约 10页
  • 2017-11-17 发布于河南
  • 举报

2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级).doc

2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)

2012专业课作业(中、高级职称): 19、网络爬虫是如何工作的? 答:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通过网页的链接地址来寻找网页从一个或若干初始网页的URL开始(通常是网站首页),遍历web空间,读取网页内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到网页中的其他链接地址,对HTML文件进行解析,取出页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站的所有页面都抓取完,满足系统的一定停止条件。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定分析、过滤,并建立索引,以便之后查询和检索。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,完全不依赖用户干预。这一过程所得到的分析结果还可以能对以后抓取过程给出反馈和指导。 20、与单模式匹配相比,多模式匹配的优点是什么? 与淡漠是匹配相比,多模式匹配的优势在于一趟遍历可以对多个模式进行匹配,对于单模式匹配算法来说,如果要匹配多个模式,那么有几个模式就要进行几趟遍历,这样效率太低。多模式匹配大大提高多模式匹配的效

文档评论(0)

1亿VIP精品文档

相关文档