- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
python可视化⼤作业_python爬⾍初探和简单数据分析及可视
化,帮学妹写个⼤作业...
学妹期末⼤作业
基于Pyt on的⼗年(2009年~20 18年) 电影票房前25位分析
1. 按年统计
1) 不同类型电影的平均票房
2) 不同国家及地区电影在前25排名中的占⽐
2. 分析⼗年间
1) 每年票房冠军的票房⾛势,并找出⼗年票房总冠军
2) 不同类型的票房分冠军
3) 同⼀类型电影平均票房⾛势,分别找出上升、下降最厉害的两种类型
4) 同⼀地区在前25排名中占⽐的变化趋势,分别找出占⽐上升、下降最厉害的两个地区
5) 探究是否有⼀种或多种类型的电影在⼗年间票房震荡⾮常厉害
3. 分析总票房和平均票价、场均⼈次、排⽚场数之间的关系。
4.撰写word⽂档完成本分析题,所有的结论和分析都需要配图或表加以⽀撑。并将⼗年间共250部电影名称作成词云烘托主题。
⼤作业分析
1.环境,建议使⽤anaconda3(环境集成,不⽤再去安装依赖包,之类的)
2.分为爬取数据和分析两个部分
下⾯直接上代码
爬⾍部分,爬取数据并存放到data.csv 中
#!/usr/bin/pyt on
# -*- coding: utf-8 -*-
import requests
import time
import re
import csv
from bs4 import BeautifulSoup
#设置URL固定部分
url= ttp:///year?year=
#设置请求头部信息
eaders = {
User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) C rome/55.0.2883.87
Safari/537.36
}
#循环抓取列表页信息
for year in range(2009,20 19):
if year == 2009:
year=str(year)
a=(url+year)
r=requests.get(url=a, eaders= eaders)
tml=r.content
else:
year=str(year)
a=(url+year)
r=requests.get(url=a, eaders= eaders)
tml2=r.content
tml = tml + tml2
#每次间隔0.5秒
time.sleep(0.5)
lj =BeautifulSoup( tml, tml.parser)
#print(lj )
#提取名称、类型、总票房(万)、平均票价、场均⼈次及国家及地区
result=lj .find_all(td)
#print(result)
#print(len(result))
mname=[]
title=
index= 1
year=2009
for i in result:
i=str(i)
title=re.findall(r(.*?)
,i,re.I|re.M)
if len(title)0:
mname.append(index)
index=index+ 1
mname.append(title[0])
else:
info=re.findall(r
(.*?),i,re.I|re.M)
mname.append(info[0])
#print(len(mname))
#print(mname)
k=0
data=[]
w ile k2000:
year=2009
year=year+(k//200)
data.append([mname[k],mname[k+ 1],mname[k+2],mname[k+3],mname[k+4],mname[k+5],mname[k+6],mname[k+7],year,1])
k=k+8
#print(data)
print(len(data))#⼀共250条数据
#将结果存到CSV⽂件
wit open(./data.csv,w) as fout:
cin= csv.writer(fout,lineterminator=\n)
#写⼊row_ 1 cin.writerow([index,name,type,zpf,mantimes,price,area,datatime,year,mark])
for item in data:
cin
您可能关注的文档
- python信用卡违约预测分析-Python数据分析及可视化实例之银行信用卡违约预测(24)....pdf
- python信用卡违约预测分析-Python机器学习实战:信用卡欺诈检测.pdf
- python共享单车数据分析-共享单车数据可视化分析(PythonSeaborn).pdf
- python关联分析如何可视化-Python共享单车数据可视化分析.pdf
- python写股票指标-用Python做股票指标RSI分析.pdf
- python函数可视化心得-最近关于数据可视化方面交流的心得感悟.pdf
- Python分析csv文件及可视化绘图.pdf
- python分析两组数据的差异-3步搞懂Python数据分析关键点.pdf
- python分析两组数据的差异-十分钟搞懂“Python数据分析”.pdf
- python分析数据的变化趋势及前景-Python数据分析三板斧.pdf
最近下载
- 2023神经重症监护患者脑水肿的急性治疗指南(完整版).pdf VIP
- 2025-2026年初中信息技术安徽初二水平会考真题试卷 .pdf VIP
- (新课标)新高教版中职信息技术(基础模块)上册1.2《认识信息系统》说课稿.docx
- 高一自主招生数学试题及标准答案.docx VIP
- 四措两案标准模板.doc
- 2025年初中信息技术初二水平会考真题试卷 含答案考点及解析 .pdf VIP
- 重庆西南大学附属中学体育馆结构设计-建筑结构.PDF
- 红楼梦英文版(杨宪益译)_精品.doc
- 2025年初中信息技术初二水平会考真题含答案考点及解析 .pdf VIP
- 2024年初中信息技术会考试题含答案.doc
文档评论(0)