用Python分析北京市蛋壳公寓租房数据.docxVIP

用Python分析北京市蛋壳公寓租房数据.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用Python分析北京市蛋壳公寓租房数据 大家好,我是J哥。? 近期,蛋壳公寓“爆雷”大事持续发酵,期间因拖欠房东房租与租客退款,蛋壳公寓陷入讨债风波,全国多地蛋壳公寓办公区域消灭大规模解约大事,而作为蛋壳公寓总部所在地北京,自然首当其冲。 为了应对大规模的解约,北京在全市已经设立了100多个蛋壳公寓冲突纠纷接待点,包含了蛋壳公寓涉及到的12个区,这些接待点下沉到了街道甚至社区,以便利涉及蛋壳公寓大事的房东和租客询问和处理纠纷。 长租公寓暴雷,不少年轻人不得不流离失所,构成疫情下的另一个经济写照,事态何去何从,值得关注。本文从数据角度动身,爬取了蛋壳公寓北京区域共6025条公寓数据,清洗数据,并进行可视化分析,为大家了解蛋壳公寓供应一个新的视角。后台回复「北京蛋壳」可猎取本文数据分析数据集。 数据猎取 蛋壳公寓网页结构相对简约,数据结构统一,简约的url翻页构造即可。需要留意的是极少数网页会前往404,需要添加推断过滤掉。本文用request恳求到数据,用xpath对前往的数据进行解析,最终以追加模式将数据存储为csv文件。爬虫核心代码如下: def get_danke(href): time.sleep(random.uniform(0, 1)) #设置延时,避开对服务器产生压力 response = requests.get(url=href, headers=headers) if response.status_code == 200: #部分网页会跳转404,需要做推断 res = response.content.decode(utf-8) div = etree.HTML(res) items = div.xpath(/html/body/div[3]/div[1]/div[2]/div[2]) for item in items: house_price=item.xpath(./div[3]/div[2]/div/span/div/text())[0] house_area=item.xpath(./div[4]/div[1]/div[1]/label/text())[0].replace(建筑面积:约,).replace(㎡(以现场勘察为准),) house_id=item.xpath(./div[4]/div[1]/div[2]/label/text())[0].replace(编号:,) house_type=item.xpath(./div[4]/div[1]/div[3]/label/text())[0].replace(\n,).replace( ,).replace(户型:,) house_floor=item.xpath(./div[4]/div[2]/div[3]/label/text())[0].replace(楼层:,) house_postion_1=item.xpath(./div[4]/div[2]/div[4]/label/div/a[1]/text())[0] house_postion_2=item.xpath(./div[4]/div[2]/div[4]/label/div/a[2]/text())[0] house_postion_3=item.xpath(./div[4]/div[2]/div[4]/label/div/a[3]/text())[0] house_subway=item.xpath(./div[4]/div[2]/div[5]/label/text())[0] else: house_price = None house_area = None house_id = None house_type = None house_floor = None house_postion_1 = None house_postion_2 = None house_postion_3 = None house_subway = None ...... 由于代码运转过程中中缀了几次,最终将数据保存为以下几个csv文件中: 数据处理 导入数据分析包 import pandas as pd import numpy as

文档评论(0)

duanbingbing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档