利用Python对链家网北京二手房进行简单数据分析.docxVIP

利用Python对链家网北京二手房进行简单数据分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本文主要讲述如何通过pandas对爬虫下来的链家数据进行相应的二手房数据分 析,主要分析内容包括各个区,各个小区的房源信息情况。 #导入主要的模块 二 pc pandas pd L-por numpy as npmatplotlib.pyplot a: pit #读取数据 house = pd.read_csv£rC:\Users\cz\Desktop\fang.csv,names=[id *,title,link, community,housetype然后查看是否有数据。 #获取总价格全五的数据house.sort_values(ftotalprice’,ascending=False).head(5) 917914916title桃田8 南北全 SEJ0 至5ss 年中间 噎送得房率9 3 4%满五任北通透大2JB 板慢1层2户 全天来 光视野好南板 透大3 后?低 楼 层)落linkhttp S //Oj H anjia c om/ers houfan g/1011 02706 320http $ //DJ h anjia c om/ers houfan g/1011http sJ/bj h anjia.c onvers houfan g/1011 02750comm house direct)unitytypeon南北floor region通州totalpr followi unitpri acrea freque 917 914 916 title 桃田8 南北全 SEJ0 至5ss 年中间 噎送得 房率9 3 4% 满五任 北通透 大2JB 板慢1 层2户 全天来 光视野 好 南板 透大3 后?低 楼 层)落 link http S //Oj H anjia c om/ers houfan g/1011 02706 320 http $ //DJ h anjia c om/ers houfan g/1011 02810 716. http sJ/bj h anjia.c onvers houfan g/1011 02750 comm house direct) unity type on 南北 floor region 通州 totalpr followi unitpri acrea freque ice nfo ce ge 600 0 50113 11973 秘 天送西 苑三区 华龙小 区 南北 南北 ■平 逼知 499 0 466 0 25 35 37209 37930 134 11 2?* 122 86 平米 25 字符串的处理 #将字符串转换成数字主要用于处理而积的数据 def data_adj(area_data, str): #判痂,平米,在不在这个数据里 if str in area_data : #用f i nd ()鬲数看我字符串的索”位置.,方便截取 *eturn /Loat(area_data [0 : area_data .find(str)]) else : I | return None 并把字符串 house[ acreage ] house[ 1 acreage 1 ]?apply(data_adjstr 平米)接下来我来计算所有户型的个数,然后用图像展示出来 #计算户型的所占的个数,用到value_counts(),排序也给你做好了,你可以清 楚的看到所占的个数housetype = house[1 housetype1].value_counts() 结果 lJTlJT2JflJT2Jf圻近lJT2JTww3JT2JT3Jfw^2I2Jf3JT近1JT听呐3JT lJTlJT2JflJT2Jf圻近lJT2JTww3JT2JT3Jfw^2I2Jf3JT近1JT听呐3JT呐亚耶邨 装氧萋氧萋婺氧装婺剧剧登喜萋曲用聂萋氧氢氧用氧用两周两 4* 1± t-I 1X 二。 pylab irpc-t mplmpl.rcParams[font.sans- serif][FangSong] mpl? reParams[axes.unicode_minus] False设置画布一 asdsdfpit . subplots(1)1)dpi = 200)获取前26条数据 housetype.head(10) . plot (feind- bar ,x= housetype =size , tLe 户型数量:分布sdf)plt.legend([数量,]) pit?show()图像展示结果,有图像可以清楚的看到数量分布情况 户型数量分布4000 - 户型数量分布 3500 - 300()- 2500 - 2000 - 1500 - 1000 - 500 - 0匕匕 匕匕

文档评论(0)

182****6694 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8116067057000050

1亿VIP精品文档

相关文档