爬虫在旅游满意度网络舆情调查中应用研究.docVIP

下载本文档

19
0
约6.25千字
约 12页
2018-09-15 发布于福建
举报
版权申诉

爬虫在旅游满意度网络舆情调查中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

爬虫在旅游满意度网络舆情调查中应用研究

爬虫在旅游满意度网络舆情调查中应用研究　　摘要：随着“互联网+”的迅猛发展和移动互联网的大范围普及，大众的旅游行为越来越依赖于网络平台，而随之产生的海量舆情数据也成了评价各种旅游要素的重要指标。但因为其数据量大、信息复杂，在进行旅游满意度统计时很难将其进行有效的统计分析，从而造成资源浪费。文章从爬虫入手，分析现阶段网络舆情监控体系核心技术要求，根据其技术要点，提出一种旅游满意度网络舆情调查解决方案，进行系统构建及采集策略规划，实现旅游满意度网络舆情数据的采集和分析，并对其可行性进行实验验证。　　关键词：爬虫；旅游满意度；网络舆情　　1 现状　　“互联网+”的概念提出之后，许多行业都发生了翻天覆地的变革[1]。旅游行业也是如此，网络因素在旅游要素中的占比越来越大，几乎成为必备。而在移动互联网发展迅猛、新媒体技术频出的当下，旅游网络舆情数据也变得越来越立体和生动，内容载体从单一的文本形式扩展到图片、地理位置、短视频、直播、弹幕等，平台载体有携程、去哪儿、飞猪、美团旅游、蚂蜂窝等。对其产生的大量数据进行有效的搜集和分析，可以准确和全面地反映出旅游产业方方面面的问题，这一做法已经被旅游行业、学者和政府所认可[2-4]。但是就目前实际操作情况来看，主要存在两个问题，一是数据的不公开阻碍数据获取；二是传统的旅游满意度调查手段在如此巨大的数据面前显得力不从心。针对这两个问题，本文提出使用爬虫技术辅助旅游满意度网络舆情调查，并根据理论研究实现对某一特定旅游平台的舆情数据进行采集和分析的系统原型。　　2 爬虫核心技术　　爬虫（Crawler）或者网络爬虫（Web Crawler）又叫作网络蜘蛛（Web Spider）、网络蚂蚁（Web Ant）、自动索引器（Automatic Indexer）、网络疾走（Web Scutter）等[5]，通?^访问特定的一组URL（统一资源定位符）来获取里面的超文本标记语言（Hyper Text Markup Language，HTML）信息，HTML中包含的新URL将会重新进入待抓取程序，成为新的访问对象，通过这种方式达到对特定站点、系统以至整个互联网进行爬取，搜索引擎背后就是有强大的爬虫系统支撑，才能获取检索整个互联网的能力。一个常规爬虫主要包含网页地址访问、列表页分页采集、HTML标签解析、内容页分页采集、查重与查新等技术。　　2.1 网页地址访问　　网页地址访问是爬虫通过模拟浏览器访问行为，通过GET和POST等访问方式向目标URL发起HTTP访问，然后获取服务器所返回的HTML文档。被访问的网页可分为首页面、列表页、内容页3种类型，这是爬虫最基础的技术要点，后续所有的操作都跟首页面地址有关，因此，该起始地址的选择很重要，一个好的首页面可以为后续的爬取提供充裕的资源。　　2.2 列表页分页采集　　列表页分页采集指对于有分页存在的页面需要将其分页地址进行解析和重组，以循环访问的方式加入到爬虫任务列表中，通过对分页页面的循环访问达到爬取该分类信息下所有资源的目的。移动互联的崛起也让信息分页显示发生了重大变革，诞生了瀑布流的展现形式，但是背后的核心要点与分页相似，也可以通过循环分页地址形式爬取数据。　　2.3 HTML标签解析　　HTML标签解析是要对获取的HTML文档进行分析和有效信息抓取，HTML文档为描述性结构，通过标签、ID、Class等信息对内容进行限定，如“段落1”这一行代码描述的就是ID为001、采用c001样式表、HTML标签为p的一个段落，段落内容为“段落1”，其中“段落1”就是要抓取的有效数据，而其余的则为抓取条件，通过这些限制条件可以唯一定位到该有效数据。　　2.4 内容页分页采集　　内容页分页采集与列表页分页采集相类似，当内容页内容过多会产生分页，也有可能是瀑布流的形式，需要对其采用分页采集技术爬取全部内容。　　2.5 查重与查新　　查重与查新是大型、持久性爬虫必不可少的一个功能，通过记录访问过的URL地址可以在进行新的访问时进行过滤操作，对已经爬取的地址进行时间戳标记，然后再将其与在库的数据进行对比，如果有更新则入库，如果没有更新则丢弃，以此来减少冗余和噪声数据。　　3 关键系统构建　　依据上文对爬虫核心技术的分析研究，网络爬虫在旅游满意度网络舆情调查中的系统构建应用，首先应对平台进行分类和对应策略研究，其次是针对平台数据特点构建分页策略和HTML标签解析策略，最后是内容查重、查新、分析以及导出。　　3.1 平台分类及数据获取策略构建　　旅游类平台产品经过多年的发展大致分为工具类和社交类，工具类平台有携程、去哪儿、飞猪、美团旅游等，主要以交通、住宿、景点门票等产品的销售为主，辅助以产品评论功能；社交类