- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                
编号: 
时间:2021 年x 月x  日  书山有路勤为径,学海无涯苦作舟                             页码:第 页 共 页 
                                                                     1    10 
             网络爬虫技术在交通信息获取的 
      应用 
              摘要:互联网上的有关交通的网页文本数据常常是非结构化、分散性的, 
      面对不断增长的海量信息,如何从中提取出有用的交通信息具有一定难度.传统 
      的信息采集处理方法很难高效准确地完成海量信息处理.由此,网络爬虫技术则 
      显示出其优越性.文中介绍了网络爬虫技术的基本内容,总结了各类交通信息获 
      取方法的研究,从不同方面综述了国内外应用网络爬虫技术解决交通信息获取问 
      题的研究历史和现状,展望了网络爬虫技术在交通中的应用前景. 
               关键词:交通工程;交通信息;网络爬虫技术;综述 
               在交通系统运行过程中会产生一系列的交通信息,各种信息技术广泛 
      应用于智能交通系统的同时,积累了海量的交通数据,这些数据分散地分布在互 
      联网网页上.海量交通信息对信息采集及处理方法等都提出了新的更高的要 
      求.传统的信息采集处理方法大多是对有限的、有规则的信息数据进行收集,并 
      不能对海量交通信息进行批量获取、保存,以及管理,因此无法准确高效地解决 
      海量交通信息获取问题.在相关的研究中,有学者利用数据挖掘技术进行了大规 
      模交通数据管理、整合和挖掘[1].近年来,国内外一些学者尝试使用网络爬 
      虫技术来获取互联网上的海量交通信息,将网络爬虫技术应用到了交通信息的获 
      取分析中.从 目前的研究成果来看,网络爬虫技术对于交通中的各类信息获取具 
      有很好的应用前景,将成为交通信息获取研究的重要方法之一. 
                1网络爬虫技术 
                                                                 第 1  页 共 10  页 
编号: 
时间:2021 年x 月x  日  书山有路勤为径,学海无涯苦作舟 页码:第 页 共 页 
                                                                     2    10 
               网络信息获取技术,是指对网络流中非结构化的信息,设法将其读取 
      出来,然后将其保存至结构化的本地数据库[2].其中,网络爬虫是最典型的 
      例子.网络爬虫,通常又称之为Web信息采集器或网络蜘蛛,是遍历Web并 
      以有条理的自动方式下载Web文档的程序或软件[3].1994年,全球首 
      个网络检索工具诞生,即WebCrawler.现阶段,百度、Yahoo、 
      Google等是相对来说比较盛行的搜索引擎.1.1网络爬虫的过程给定一 
      个或多个种子URL,是网络爬虫的首要条件.其次,需要将与这些URL相关 
      联的网页下载下来,提取其中涉及到的所有超链接;最后,递归地继续去下载被 
      这些超链接所标识的网页[4].网络爬虫的过程见图1.使用遍历的方式,访 
      问互联网这个超级“ 图” 的各个节点,找寻并获取有用信息,这是网络爬虫的目 
      的.因此,网络爬虫的体系结构一般由以下几个模块组成:初始化模块、Web 
      页面获取模块、Web页面解析模块,以及URL过滤模块.1.2网络爬虫分 
      类及爬虫搜索策略按照系统结构和实现技术,可以对网络爬虫进行分类.主要包 
      括通用网络爬虫 (全网爬虫)、聚焦网络爬虫 (主题网络爬虫)、增量式网络爬虫 
      和深层网络爬虫这四种类型.在实际应用中,通常将这几类爬虫进行结合使用以 
      达到目的.爬虫的搜索策略是网络爬虫的核心问题,其优劣决定了爬虫系统的效 
      率和性能.主要的网络爬虫搜索策略包括深度和广度优先、基于内容的、基于链 
      接的搜索策略.其中,由于能够较为全面地遍历web中的所有网页结点,深度 
      和广度优先搜索策略较适合全网爬虫,也即通用型网络爬虫系统.基于内容的搜 
      索策略,如SharkSSe
                您可能关注的文档
最近下载
- Altium Designer中英文技术词汇对照.pdf VIP
 - 江苏省常州市联盟校2023-2024学年高一上学期调研期中英语试卷.pdf VIP
 - 报废汽车回收利用课件.pptx VIP
 - 统编版道德与法治(2024)三年级上册第二单元 第5课《 走近科学家》第1课时 探索未知世界的人和科学家的品格PPT模板.pptx VIP
 - 新02J01工程做法-标准图集.docx
 - 小学安全教育主题班会 地震科普携手同行 课件(共24张PPT).pptx VIP
 - (正式版)DB61∕T 1159-2018 《建筑垃圾再生材料挤密桩施工技术规范》.pdf VIP
 - 2025陕西省从优秀村(社区)干部中考试录用乡镇(街道)机关公务员200人笔试备考题库及答案解析.docx VIP
 - 序贯器官衰竭评估(SOFA 2.0)评分 .pptx
 - upvc管件螺纹接头.pdf VIP
 
原创力文档
                        

文档评论(0)