- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本文主要讲述如何通过pandas对爬虫下来的链家数据进行相应的二手房数据分 析,主要分析内容包括各个区,各个小区的房源信息情况。
#导入主要的模块
二 pc pandas pd
L-por numpy as npmatplotlib.pyplot a: pit
#读取数据
house = pd.read_csv£rC:\Users\cz\Desktop\fang.csv,names=[id *,title,link, community,housetype然后查看是否有数据。
#获取总价格全五的数据house.sort_values(ftotalprice’,ascending=False).head(5)
917914916title桃田8南北全SEJ0至5ss年中间噎送得房率93 4%满五任北通透大2JB 板慢1层2户 全天来 光视野好南板 透大3 后?低 楼 层)落linkhttp S //Oj H anjia c om/ers houfan g/1011 02706 320http $ //DJ h anjia c om/ers houfan g/1011http sJ/bj h anjia.c onvers houfan g/1011 02750comm house direct)unitytypeon南北floor region通州totalpr followi unitpri acrea freque
917
914
916
title
桃田8南北全SEJ0至5ss年中间噎送得
房率93 4%
满五任
北通透
大2JB 板慢1
层2户 全天来 光视野
好
南板 透大3 后?低 楼 层)落
link
http S //Oj H anjia c om/ers houfan g/1011 02706 320
http $ //DJ h anjia c om/ers houfan g/1011 02810
716.
http sJ/bj h anjia.c onvers houfan g/1011 02750
comm house direct)
unity
type
on
南北
floor region
通州
totalpr followi unitpri acrea freque
ice
nfo
ce
ge
600 0
50113
11973
秘
天送西
苑三区
华龙小 区
南北
南北
■平
逼知
499 0
466 0
25
35
37209
37930
134 11
2?*
122 86
平米
25
字符串的处理
#将字符串转换成数字主要用于处理而积的数据 def data_adj(area_data, str):
#判痂,平米,在不在这个数据里 if str in area_data :
#用f i nd ()鬲数看我字符串的索”位置.,方便截取
*eturn /Loat(area_data [0 : area_data .find(str)]) else :
I | return None
并把字符串
house[ acreage ] house[ 1 acreage 1 ]?apply(data_adjstr 平米)接下来我来计算所有户型的个数,然后用图像展示出来
#计算户型的所占的个数,用到value_counts(),排序也给你做好了,你可以清 楚的看到所占的个数housetype = house[1 housetype1].value_counts()
结果
lJTlJT2JflJT2Jf圻近lJT2JTww3JT2JT3Jfw^2I2Jf3JT近1JT听呐3JT
lJTlJT2JflJT2Jf圻近lJT2JTww3JT2JT3Jfw^2I2Jf3JT近1JT听呐3JT呐亚耶邨 装氧萋氧萋婺氧装婺剧剧登喜萋曲用聂萋氧氢氧用氧用两周两
4* 1± t-I 1X
二。 pylab irpc-t mplmpl.rcParams[font.sans- serif][FangSong]
mpl? reParams[axes.unicode_minus] False设置画布一
asdsdfpit . subplots(1)1)dpi = 200)获取前26条数据
housetype.head(10) . plot (feind- bar ,x= housetype =size , tLe 户型数量:分布sdf)plt.legend([数量,])
pit?show()图像展示结果,有图像可以清楚的看到数量分布情况
户型数量分布4000 -
户型数量分布
3500 -
300()-
2500 -
2000 -
1500 -
1000 -
500 -
0匕匕
匕匕
原创力文档


文档评论(0)