高教社旅游大数据理论、技术与应用教学课件3.pptxVIP

高教社旅游大数据理论、技术与应用教学课件3.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【第四章】旅游大数据采集与预处理导读【本章导读】旅游大数据采集与预处理是进行数据挖掘、分析并辅助决策的基础。旅游大数据或数据规模大,或数据结构复杂,或数据产生及变化的速度快到以秒来计,其采集过程和方法不同于传统的旅游数据。旅游大数据也存在所采集的原始数据错误、冗余、缺失、不一致等问题。这样的数据不能直接用于数据分析和挖掘,需要进行数据预处理以消除数据存在的问题,提高数据质量。本章主要介绍旅游大数据的采集来源、流程、方法及常用工具,旅游大数据预处理的目的、流程与方法,主要包含数据清洗、数据变换、数据归约、数据集成以及数据标注等问题。【本章关键术语】数据采集;网络爬虫;数据预处理;数据清洗;数据归约;第一节 大数据采集第一节 大数据采集一、旅游大数据采集来源 旅游大数据采集指对已经生产出来的旅游大数据进行采集的过程。旅游大数据的生产指对旅游相关的真实世界物理条件进行测量并得到数据的过程,被生产出来的旅游大数据也被称为旅游大数据源。旅游大数据生产、旅游大数据源和旅游大数据集之间的关系如图 4-1-1 所示。第一节 大数据采集(一)旅游大数据生产 1. 人生产数据游客生成内容职业生成内容专业生产内容这一提法来源于用户生成内容(User Generated Content,UGC)。UGC 是用户将自己原创的内容通过互联网平台进行展示或提供给其他用户。游客生成内容是将 UGC 中的用户界定为游客,游客成为用户生成内容的生产者。游客在游前、游中及游后,用互联网平台分享自己的旅游体验,撰写并发布评论、攻略、游记等,从而生产大量 UGC 数据。职业生成内容(Occupationally Generated Content,简称 OGC)。OGC 是经常与 UGC 一起出现的互联网术语,主要指具有一定行业背景的职业人士生产的互联网内容。在旅游领域,这些职业人士包含具有新闻或旅游专业背景的旅游记者与编辑等。相比较游客生成内容,旅游领域的职业生成内容具有一定的专业性。专业生成内容(Professionally Generated Content,简称 PGC)。PGC 也是一种互联网用语,指专业生产并由互联网进行传播的内容。这里的“专业”主要指内容生产过程的专业性,如电视制作、视频制作等。PGC 是现在很多视频网站采取的主要方式。第一节 大数据采集2.机构生产数据政府生产数据。各级政府和相关单位在履行旅游政务、行业监督、市场治理及公共服务等职能中生产了大量数据。政府生产的旅游数据包括旅游政策数据、旅游统计数据、旅游法律法规数据、旅游行业数据(企业诚信、导游资历及出入境团队数据等)、政府共享涉旅数据(公安、交通运输、社保、海事、水务、商贸、文体、环保、国土资源、城乡建设、农业及林业)等。涉旅企业生产数据。涉旅企业在自身业务运行、企业稳定与发展及市场竞争中生产了大量数据。涉旅企业生产的数据包括各种企业报表(如企业基本情况表与财务报表)、信息系统产生的数据(如旅游企业内部业务运行数据)、旅游电子商务公司的游客消费与交易数据等。第一节 大数据采集 3. 机器或设备生产数据机器或设备(如服务器、传感器、导航仪器、手机基站及 Wi-Fi 设备等)也生产大量数据。应用系统的服务器会产生系统运行和用户操作的日志数据,这些数据不同于信息系统的业务数据(如客户、交易等),是由机器运行而产生的。随着手机等智能移动设备的普及,手机基站生产海量游客移动的信令数据,GPS 设备生产海量的游客位置数据。更多的机器或设备通过传感器、条形码和 RFID 无线射频识别链入互联网,为了共同实现某种功能各台机器或设备之间进行的“交流”或“沟通”,也生产大量数据。设备生产的数据还包括景区、酒店、旅游公共服务场所的监控设备采集的图片、音频、视频等数据。第一节 大数据采集一、旅游大数据源旅游大数据生产机构和个体生产丰富的旅游大数据,这些数据或开放于互联网,或存储在机构的机器或设备中,为需要采集旅游大数据的各种旅游应用提供了数据源。基于大数据的旅游应用在获取旅游大数据时,可将旅游大数据源分为表 4-1-1 所示类别。大数据采集第一节 二、旅游大数据采集方法(一)互联网数据采集互联网大数据采集主要通过网络爬虫或网站公开应用程序接口(Application Programming Interface,API)两种方式实现。网络爬虫是一种按照一定规则自动抓取 Web 信息的程序或者脚本。网络爬虫可以自动采集所有其能够访问的页面内容,为搜索引擎和大数据分析提供数据来源。例如,在通过数据采集平台采集互联网旅游游记数据时,通过爬虫技术可得到数据采集时间、数据发布时间、游记标题、作者名称、浏览人数、游记正文等内容应用程序可以通过 API 访问一组计算,且无需访问源码或理解计算内部逻辑和细节。一些网站将自己

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档