网站大量收购独家精品文档,联系QQ:2885784924

最完整北京民宿数据分析.pptVIP

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

四、构建模型”面积描述性统计分析数据显示,众数为50,中位数为60,均值为75,可以发现北京民宿以小户型为主。描述性统计分析四、构建模型离最近商圈距离描述性统计分析离最近商圈距离说明民宿生活的便利性。从中位数、众数、平均数来看,民宿周边500-1500米内就有一个商区。这个距离可以说很便民了。如果你要开民宿,先看看周围1500米内有没有商圈,选址很重要!描述性统计分析四、构建模型床数描述性统计分析床数最普遍的是“1”,和前面我们得出的结论“大多数民宿的目标客户是情侣或闺蜜”相符合,在后面更详细的分析中,我们会看到更多证据。描述性统计分析12(二)各个区域民宿特点四、构建模型每个区,不同类型民宿的数量从数量上来说,朝阳区民宿最多,占33%,然后是东城区和海淀区。朝阳区民宿数量是东城区的2.4倍。从类型上说,别墅,复式,公寓,客栈,四合院这5中类型中,公寓数量最多,占到78%。其次是复式。在各区中,复式民宿集中在朝阳、顺义、大兴、通州4个区;别墅集中在昌平;四合院集中在东城区。四、构建模型每个区,不同类型民宿的点评数四合院住客写点评的数量是别墅的4倍,四合院带给游客更深的体验感。各个区域民宿特点四、构建模型3.各区对应的民宿均价各区中,怀柔的价格最高,均价接近3000元。原以为是某个异常值拉高了平均值,重新翻看数据,发现怀柔有4-5家高端民宿,定价均在4000-7000的范围不等。也有多个价格在2000以上的民宿,表明北京高端民宿在怀柔较为集中。其次价格最高的依次是延庆、昌平区,西城区、东城区。东城区和西城区均价大体一致。房山和门头沟均价最低。(二)各个区域民宿特点第一部分5大数据告诉我们什么五、大数据告诉我们什么上是数据最简单的分析方法,研究对象只有2个,例如:价格和区域的关系、区域和点评数的关系。在下面部分,将分析更复杂的问题,将解决以下几个问题:不同区域、不同类型的民宿面积多大?例如:昌平的复式面积多大,东城区的四合院面积多大,朝阳的公寓面积多大。哪些商圈,周围民宿最集中?例如:通州北关和百子湾,哪个周围民宿最多。*******最完整北京民宿数据分析1提出问题缘起闺蜜要来北京啦,我要综合分析北京特色民宿和酒店为朋友们安排一个难忘的“onenightinBeijing”3网站03选好了工具,现在要确定从哪个网站进行爬取。分别研究了缤客、携程、去哪儿、Airbnb等,最终选择途家,网站的定位与研究主题一致。2工具02市场上没有“现成”的数据,该怎么办?这是面临的第一个难题,后来仔细想想,解决这个难题有3个方法:A请专业编程人员爬取数据B用简单易上手的爬虫软件C手抄第一个得花钱,不考虑;第三个得吐血,不考虑。于是选了第二个方法,自学爬虫软件。先后分别用集搜客和八爪鱼爬取数据,相比较八爪鱼更简单。1内容01获得北京特色住宿相关的数据,数据信息包含民宿数量,主要分布的区域,住客打分,住客点评量,价格,距离中心区公里数等。一、提出问题北京253个商圈中,哪些民宿最集中?通州北关和百子湾,哪个周围民宿最多?北京16个区,不同类型的民宿面积多大?海淀的复式面积多大?东城区的四合院面积多大?朝阳的公寓面积多大?不同区域的民宿,哪些以情侣为主,哪些以家庭为主?看完这篇文章,你就可以来北京投资民宿2数据获取二、数据获得爬取字段包括:房源描述、区域、商圈、离最近商圈距离、格局、户型、面积、宜住人数、床数、住客评分、住客点评数、价格共12个字段,3000多条数据集八爪鱼规则制定二、数据获得数据搜集器:八爪鱼八爪鱼爬取过程截图3数据清洗三、数据清洗理解数据重新命名。标题呈现“字段_文本”,“字段_链接”等字样,与主题无关,删除字样,依次改为和内容相关的标题。三、数据清洗(一)理解数据取子集。原始数据也称作“dirtydata”,大量信息是我们不需要的,例如网络链接这列和空白列等,均删除,也可以选择将其隐藏。三、数据清洗删除重复。完成理解数据后,进行重复数据的删除。选择整个数据表格,点击“数据”-“删除重复项”,我们找到386个重复数据,将其删除,剩余2824条有效数据。(二)删除重复项三、数据清洗通过观察我们发现有大量的数据空缺。点击“查找和选择”-“定位条件”-“空值”,定位所有的缺失值所在单元格。处理空缺值处理缺失值有3种处理方式:1直接删除2填写数据平均值3手动填写一个值通过“Ctrl+Enter”实现批量填补。三、数据清洗分列功能。第1步:选择“住客点评数”这列,通过观察你发现,内容由“/”分成左右两部分,“/”符号是

文档评论(0)

135****3907 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档