Python网络爬虫——二手房数据爬取及分析.docxVIP

Python网络爬虫——二手房数据爬取及分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Python?络爬?——??房数据爬取及分析

?、选题的背景

为什么要选择ft选题?要达到的数据分析的预期?标是什么?(10分)

通过爬取Q房??房信息,对爬取的数据进?进?步清洗处理,分析各维度的数据,筛选对房价有显著影响的特征变量,探索上海??房整体情况、价格情况。

?、主题式?络爬?设计?案(10分)

主题式?络爬?名称:??房爬?及数据分析

主题式?络爬?爬取的内容与数据特征分析:

通过request爬取Q房??房的信息、BeautifulSoup分析?页结构获取数据,其中内容为上海??房的房屋简介、楼层、规格、地址、房价、?积。

主题式?络爬?设计?案概述:

需要分为?个步骤实现:通过获取?页资源,使?etree解析?页,定位爬取资源将数据保存到csv?件中。三、主题页?的结构特征分析(10分)

数据来源:

Htmls页?解析:

通过find?法查找所需要的相关页?代码

四、?络爬?程序设计(60分)数据爬取及采集:

#导?库

importrequests

fromlxmlimportetree

importtime

importre

importpandasaspd7

#初始化空列表

jianjie_list,louceng_list,guige_list,dz_list,fangjia_list,mianji_list=[],[],[],[],[],[]10

forainrange(10):

#爬取前10页的内容

url=/sale/f{}.format(a*10)14

#设置请求头

headers={

User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.114Safari/537.36

}

#requests请求链接

resp=requests.get(url,headers=headers).text21

#使?lxml模块中的etree?法将字符串转化为html标签

html=etree.HTML(resp)24

#xpath定位标签

list=html.xpath(/html/body/div[4]/div/div[1]/div[4]/ul/li)27

#爬取内容具体链接

forliinlist:

#爬取简介

jianjie=li.xpath(./div[2]/div[1]/a/text())[0]

#爬取楼层

louceng=li.xpath(./div[2]/div[2]/p[4]/text())[0]

#爬取规格

guige=li.xpath(./div[2]/div[2]/p[1]/text())[0]

#爬取地址

dz=li.xpath(./div[2]/div[3]/div/text())[0]

#爬取房价

fangjia=li.xpath(./div[3]/p[2]/text())[0]

#爬取?积

mianji=li.xpath(./div[2]/div[2]/p[2]/text())[0]42

#输出

print(jianjie)

print(louceng)

print(guige)

print(dz)

print(fangjia)

print(mianji)

#将字段存?初始化的列表中

jianjie_list.append(jianjie)

louceng_list.append(louceng)

guige_list.append(guige)

dz_list.append(dz)

fangjia_list.append(fangjia)

mianji_list.append(mianji)

57

#pandas中的模块将数据存?

df=pd.DataFrame({

简介:jianjie_list,

楼层:louceng_list,

规格:guige_list,

地址:dz_list,

房价:fangjia_list,

?积:mianji_list,

66})

#储存为csv?件

df.to_csv(fangzi.csv,encoding=utf_8_sig,index=False)

爬取运??成?个.csv?件

导?库:

importnumpyasnp

importpandasaspd

importmatplotlib.pyplotasplt

importseabornassns

importmatplotlib.pyplot

您可能关注的文档

文档评论(0)

论文修改排版 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档