网络爬虫技术在交通信息获取的应用.pdfVIP

网络爬虫技术在交通信息获取的应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
编号: 时间:2021 年x 月x 日 书山有路勤为径,学海无涯苦作舟 页码:第 页 共 页 1 10 网络爬虫技术在交通信息获取的 应用 摘要:互联网上的有关交通的网页文本数据常常是非结构化、分散性的, 面对不断增长的海量信息,如何从中提取出有用的交通信息具有一定难度.传统 的信息采集处理方法很难高效准确地完成海量信息处理.由此,网络爬虫技术则 显示出其优越性.文中介绍了网络爬虫技术的基本内容,总结了各类交通信息获 取方法的研究,从不同方面综述了国内外应用网络爬虫技术解决交通信息获取问 题的研究历史和现状,展望了网络爬虫技术在交通中的应用前景. 关键词:交通工程;交通信息;网络爬虫技术;综述 在交通系统运行过程中会产生一系列的交通信息,各种信息技术广泛 应用于智能交通系统的同时,积累了海量的交通数据,这些数据分散地分布在互 联网网页上.海量交通信息对信息采集及处理方法等都提出了新的更高的要 求.传统的信息采集处理方法大多是对有限的、有规则的信息数据进行收集,并 不能对海量交通信息进行批量获取、保存,以及管理,因此无法准确高效地解决 海量交通信息获取问题.在相关的研究中,有学者利用数据挖掘技术进行了大规 模交通数据管理、整合和挖掘[1].近年来,国内外一些学者尝试使用网络爬 虫技术来获取互联网上的海量交通信息,将网络爬虫技术应用到了交通信息的获 取分析中.从 目前的研究成果来看,网络爬虫技术对于交通中的各类信息获取具 有很好的应用前景,将成为交通信息获取研究的重要方法之一. 1网络爬虫技术 第 1 页 共 10 页 编号: 时间:2021 年x 月x 日 书山有路勤为径,学海无涯苦作舟 页码:第 页 共 页 2 10 网络信息获取技术,是指对网络流中非结构化的信息,设法将其读取 出来,然后将其保存至结构化的本地数据库[2].其中,网络爬虫是最典型的 例子.网络爬虫,通常又称之为Web信息采集器或网络蜘蛛,是遍历Web并 以有条理的自动方式下载Web文档的程序或软件[3].1994年,全球首 个网络检索工具诞生,即WebCrawler.现阶段,百度、Yahoo、 Google等是相对来说比较盛行的搜索引擎.1.1网络爬虫的过程给定一 个或多个种子URL,是网络爬虫的首要条件.其次,需要将与这些URL相关 联的网页下载下来,提取其中涉及到的所有超链接;最后,递归地继续去下载被 这些超链接所标识的网页[4].网络爬虫的过程见图1.使用遍历的方式,访 问互联网这个超级“ 图” 的各个节点,找寻并获取有用信息,这是网络爬虫的目 的.因此,网络爬虫的体系结构一般由以下几个模块组成:初始化模块、Web 页面获取模块、Web页面解析模块,以及URL过滤模块.1.2网络爬虫分 类及爬虫搜索策略按照系统结构和实现技术,可以对网络爬虫进行分类.主要包 括通用网络爬虫 (全网爬虫)、聚焦网络爬虫 (主题网络爬虫)、增量式网络爬虫 和深层网络爬虫这四种类型.在实际应用中,通常将这几类爬虫进行结合使用以 达到目的.爬虫的搜索策略是网络爬虫的核心问题,其优劣决定了爬虫系统的效 率和性能.主要的网络爬虫搜索策略包括深度和广度优先、基于内容的、基于链 接的搜索策略.其中,由于能够较为全面地遍历web中的所有网页结点,深度 和广度优先搜索策略较适合全网爬虫,也即通用型网络爬虫系统.基于内容的搜 索策略,如SharkSSe

文档评论(0)

186****5782 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档