- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Python?络爬?——??房数据爬取及分析
?、选题的背景
为什么要选择ft选题?要达到的数据分析的预期?标是什么?(10分)
通过爬取Q房??房信息,对爬取的数据进?进?步清洗处理,分析各维度的数据,筛选对房价有显著影响的特征变量,探索上海??房整体情况、价格情况。
?、主题式?络爬?设计?案(10分)
主题式?络爬?名称:??房爬?及数据分析
主题式?络爬?爬取的内容与数据特征分析:
通过request爬取Q房??房的信息、BeautifulSoup分析?页结构获取数据,其中内容为上海??房的房屋简介、楼层、规格、地址、房价、?积。
主题式?络爬?设计?案概述:
需要分为?个步骤实现:通过获取?页资源,使?etree解析?页,定位爬取资源将数据保存到csv?件中。三、主题页?的结构特征分析(10分)
数据来源:
Htmls页?解析:
通过find?法查找所需要的相关页?代码
四、?络爬?程序设计(60分)数据爬取及采集:
#导?库
importrequests
fromlxmlimportetree
importtime
importre
importpandasaspd7
#初始化空列表
jianjie_list,louceng_list,guige_list,dz_list,fangjia_list,mianji_list=[],[],[],[],[],[]10
forainrange(10):
#爬取前10页的内容
url=/sale/f{}.format(a*10)14
#设置请求头
headers={
User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.114Safari/537.36
}
#requests请求链接
resp=requests.get(url,headers=headers).text21
#使?lxml模块中的etree?法将字符串转化为html标签
html=etree.HTML(resp)24
#xpath定位标签
list=html.xpath(/html/body/div[4]/div/div[1]/div[4]/ul/li)27
#爬取内容具体链接
forliinlist:
#爬取简介
jianjie=li.xpath(./div[2]/div[1]/a/text())[0]
#爬取楼层
louceng=li.xpath(./div[2]/div[2]/p[4]/text())[0]
#爬取规格
guige=li.xpath(./div[2]/div[2]/p[1]/text())[0]
#爬取地址
dz=li.xpath(./div[2]/div[3]/div/text())[0]
#爬取房价
fangjia=li.xpath(./div[3]/p[2]/text())[0]
#爬取?积
mianji=li.xpath(./div[2]/div[2]/p[2]/text())[0]42
#输出
print(jianjie)
print(louceng)
print(guige)
print(dz)
print(fangjia)
print(mianji)
#将字段存?初始化的列表中
jianjie_list.append(jianjie)
louceng_list.append(louceng)
guige_list.append(guige)
dz_list.append(dz)
fangjia_list.append(fangjia)
mianji_list.append(mianji)
57
#pandas中的模块将数据存?
df=pd.DataFrame({
简介:jianjie_list,
楼层:louceng_list,
规格:guige_list,
地址:dz_list,
房价:fangjia_list,
?积:mianji_list,
66})
#储存为csv?件
df.to_csv(fangzi.csv,encoding=utf_8_sig,index=False)
爬取运??成?个.csv?件
导?库:
importnumpyasnp
importpandasaspd
importmatplotlib.pyplotasplt
importseabornassns
importmatplotlib.pyplot
您可能关注的文档
- 《水污染控制工程课程设计》问题(环工20级)(1).doc
- 【精品】I2C实验报告.docx
- 1_python语言程序设计实验报告模板 创新创业(1).doc
- Python实现的学生信息管理系统.PDF
- python写学生信息管理系统教程_python学生信息管理系统实现代码.PDF
- R语言进行机器学习方法及实例(一).PDF
- R语言与机器学习.docx
- 材料化学-《化工原理课程设计》教学大纲.doc
- 测控技术与仪器毕业论文范文——压阻式压力传感器的设计与应用.docx
- 城市固体有机废物堆肥实验装置设计_胡天觉.pdf
- 第01讲+生物和细胞(复习课件)(安徽专用)2026年中考生物一轮复习讲练测.pptx
- 第七章+力(复习课件)物理新教材人教版八年级下册.pptx
- 专题02+Units+3_4+教材核心知识串讲(期末复习课件)六年级英语上学期新教材沪教版五四制.pptx
- 专题03+Units+5_6+教材核心知识串讲(期末复习课件)七年级英语上学期新教材沪教版五四制.pptx
- 写作:考虑目的和对象:笔为心声+文因人定(情境任务教学课件)语文新教材统编版八年级下册.pptx
- 第五单元 第五课《插入超链接》 课件 2025-2026学年沪科版初中信息科技八年级下册.pptx
- 第04讲+动物的类群(复习课件)2026年中考生物一轮复习讲练测.pptx
- 专题01+Units+1_2+教材核心知识串讲(期末复习课件)六年级英语上学期新教材沪教版五四制.pptx
- 第26课《创意展示我家乡》+课件+-+2025-2026学年人教版初中信息科技七年级全一册.pptx
- 专题01+Units+1_2+教材核心知识串讲(期末复习课件)八年级英语上学期新教材沪教版五四制.pptx
原创力文档


文档评论(0)