用Python分析北京市蛋壳公寓租房数据.docxVIP

下载本文档

75
1
约1.12万字
约 18页
2021-11-16 发布于湖南
举报
版权申诉

用Python分析北京市蛋壳公寓租房数据.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用Python分析北京市蛋壳公寓租房数据大家好，我是J哥。? 近期，蛋壳公寓“爆雷”大事持续发酵，期间因拖欠房东房租与租客退款，蛋壳公寓陷入讨债风波，全国多地蛋壳公寓办公区域消灭大规模解约大事，而作为蛋壳公寓总部所在地北京，自然首当其冲。为了应对大规模的解约，北京在全市已经设立了100多个蛋壳公寓冲突纠纷接待点，包含了蛋壳公寓涉及到的12个区，这些接待点下沉到了街道甚至社区，以便利涉及蛋壳公寓大事的房东和租客询问和处理纠纷。长租公寓暴雷，不少年轻人不得不流离失所，构成疫情下的另一个经济写照，事态何去何从，值得关注。本文从数据角度动身，爬取了蛋壳公寓北京区域共6025条公寓数据，清洗数据，并进行可视化分析，为大家了解蛋壳公寓供应一个新的视角。后台回复「北京蛋壳」可猎取本文数据分析数据集。数据猎取蛋壳公寓网页结构相对简约，数据结构统一，简约的url翻页构造即可。需要留意的是极少数网页会前往404，需要添加推断过滤掉。本文用request恳求到数据，用xpath对前往的数据进行解析，最终以追加模式将数据存储为csv文件。爬虫核心代码如下： def get_danke(href): time.sleep(random.uniform(0, 1)) #设置延时，避开对服务器产生压力 response = requests.get(url=href, headers=headers) if response.status_code == 200: #部分网页会跳转404，需要做推断 res = response.content.decode(utf-8) div = etree.HTML(res) items = div.xpath(/html/body/div[3]/div[1]/div[2]/div[2]) for item in items: house_price=item.xpath(./div[3]/div[2]/div/span/div/text())[0] house_area=item.xpath(./div[4]/div[1]/div[1]/label/text())[0].replace(建筑面积：约,).replace(㎡（以现场勘察为准）,) house_id=item.xpath(./div[4]/div[1]/div[2]/label/text())[0].replace(编号：,) house_type=item.xpath(./div[4]/div[1]/div[3]/label/text())[0].replace(\n,).replace( ,).replace(户型：,) house_floor=item.xpath(./div[4]/div[2]/div[3]/label/text())[0].replace(楼层：,) house_postion_1=item.xpath(./div[4]/div[2]/div[4]/label/div/a[1]/text())[0] house_postion_2=item.xpath(./div[4]/div[2]/div[4]/label/div/a[2]/text())[0] house_postion_3=item.xpath(./div[4]/div[2]/div[4]/label/div/a[3]/text())[0] house_subway=item.xpath(./div[4]/div[2]/div[5]/label/text())[0] else: house_price = None house_area = None house_id = None house_type = None house_floor = None house_postion_1 = None house_postion_2 = None house_postion_3 = None house_subway = None...... 由于代码运转过程中中缀了几次，最终将数据保存为以下几个csv文件中：数据处理导入数据分析包 import pandas as pdimport numpy as