网站大量收购闲置独家精品文档,联系QQ:2885784924

高教社唐九阳大数据技术基础教学课件第10章 旅游网站大数据分析案例.pptx

高教社唐九阳大数据技术基础教学课件第10章 旅游网站大数据分析案例.pptx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章 旅游网站大数据分析案例大数据技术基础 案例目标案例准备案例实战内容大纲 案例目标数据获取与清洗:使用网络爬虫获取各大旅游网站数据,在此基础上进行数据清洗。数据存储:把清洗完的数据存储到 Hbase 中,为后续的数据分析提供基础。数据分析:对存储到本地 Hbase 的数据结合相关业务需求进行计算统计。数据可视化:对数据分析得到的结果进行可视化,形成直观的图表展示。 案例准备案例背景:人人出行都离不开酒店预订,而在互联网时代,在线预定成为了广受欢迎的预订方式。本案例面向酒店预订网站上的海量酒店信息,以大数据分析为牵引,把开始的数据获取和清洗到最后的数据分析可视化贯穿在一起。Jsoup爬虫框架:Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址和HTML文本内容。它提供了一套非常省力的API,可通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本。 案例实战实验数据实验数据选自全国600多所城市60GB左右的携程网站数据中选取得到,如下图所示。 案例实战数据抓取这一步骤需要抓取携程旅游网的数据,解析并提取HTML 元素,得到携程旅游网全国城市信息,清洗HTML文档中无意义数据。Jsoup 使用起来比较简单,调用Jsoup可以直接获取网页的数据:再获取携程网整个页面的资源代码如下 案例实战 案例实战接着分别获取携程网所有带有href的link标签、第一次出现class为pop_attention的div(可用DOM或CSS二种方式实现)、以及所有li之后的i标签。 案例实战再进一步找出携程网中所有链接、图片和其它辅助内容。即在解析获得一个Document实例对象,并查找到一些元素之后,取得在这些元素中的数据。 案例实战使用Jsoup抓取携程旅游网的全国城市信息,利用Jsoup解析并提取HTML元素知识,再结合JavaBean输出全国城市酒店。 案例实战 案例实战数据存储,这一步骤把清洗完的数据存储到 Hbase 中:即保存酒店和城市数据以及酒店评论信息。com.util.HBaseUtil类封装了对应的创建Hbase表方法createTable,示例如下:com.util.HBaseUtil类封装了对应的批量存储到Hbase表方putByTable,示例如下: 案例实战酒店和城市数据的文件格式如下所示: 案例实战创建拥有两个列族的cityInfo、hotel_info的表t_city_hotels_info,把文件aomen.txt、hongkong.txt中数据存到Hbase表t_city_hotels_info中,代码如下所示: 案例实战 案例分析数据分析这部分会统计每个城市的宾馆平均价格以及酒店评论中词频较高的词。配置HBase的MapReduce类;使用HBase的MapReduce进行数据分析;使用Java分词组件之word分词。 案例分析预期输出: 案例分析这部分将数据分析得到的结果进行可视化:获取酒店评论数据生成词云,进行词云的绘制和渲染,能直观地反映酒店评论数据。绘制一个简单的词云只需5个主要操作:创建词频分析器,设置词频,此处的参数配置视情况而定即可。加载文本路径,生成词频集合。设置图片分辨率生成词云对象并写入图片 案例分析扫描表得到ResultScanner,并存储数据。 最终生成词云的代码如下所示: 案例分析 案例分析最终词云展示效果如下: 章节小结本案例通过以旅游网站大数据分析为背景,涵盖了大数据处理中的数据获取、数据清洗、数据存储、数据分析、数据可视化几大关键步骤。通过全流程的操作实践,强化了使用最新的Jsoup、Hbase等数据处理工具的能力,并且通过可视化应用,从海量数据中探寻规律、生成价值。

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档