python可视化大作业-python爬虫初探和简单数据分析及可视化,帮学妹写个大作业....pdfVIP

python可视化大作业-python爬虫初探和简单数据分析及可视化,帮学妹写个大作业....pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
python可视化⼤作业_python爬⾍初探和简单数据分析及可视 化,帮学妹写个⼤作业... 学妹期末⼤作业 基于Pyt on的⼗年(2009年~20 18年) 电影票房前25位分析 1. 按年统计 1) 不同类型电影的平均票房 2) 不同国家及地区电影在前25排名中的占⽐ 2. 分析⼗年间 1) 每年票房冠军的票房⾛势,并找出⼗年票房总冠军 2) 不同类型的票房分冠军 3) 同⼀类型电影平均票房⾛势,分别找出上升、下降最厉害的两种类型 4) 同⼀地区在前25排名中占⽐的变化趋势,分别找出占⽐上升、下降最厉害的两个地区 5) 探究是否有⼀种或多种类型的电影在⼗年间票房震荡⾮常厉害 3. 分析总票房和平均票价、场均⼈次、排⽚场数之间的关系。 4.撰写word⽂档完成本分析题,所有的结论和分析都需要配图或表加以⽀撑。并将⼗年间共250部电影名称作成词云烘托主题。 ⼤作业分析 1.环境,建议使⽤anaconda3(环境集成,不⽤再去安装依赖包,之类的) 2.分为爬取数据和分析两个部分 下⾯直接上代码 爬⾍部分,爬取数据并存放到data.csv 中 #!/usr/bin/pyt on # -*- coding: utf-8 -*- import requests import time import re import csv from bs4 import BeautifulSoup #设置URL固定部分 url= ttp:///year?year= #设置请求头部信息 eaders = { User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) C rome/55.0.2883.87 Safari/537.36 } #循环抓取列表页信息 for year in range(2009,20 19): if year == 2009: year=str(year) a=(url+year) r=requests.get(url=a, eaders= eaders) tml=r.content else: year=str(year) a=(url+year) r=requests.get(url=a, eaders= eaders) tml2=r.content tml = tml + tml2 #每次间隔0.5秒 time.sleep(0.5) lj =BeautifulSoup( tml, tml.parser) #print(lj ) #提取名称、类型、总票房(万)、平均票价、场均⼈次及国家及地区 result=lj .find_all(td) #print(result) #print(len(result)) mname=[] title= index= 1 year=2009 for i in result: i=str(i) title=re.findall(r(.*?) ,i,re.I|re.M) if len(title)0: mname.append(index) index=index+ 1 mname.append(title[0]) else: info=re.findall(r (.*?),i,re.I|re.M) mname.append(info[0]) #print(len(mname)) #print(mname) k=0 data=[] w ile k2000: year=2009 year=year+(k//200) data.append([mname[k],mname[k+ 1],mname[k+2],mname[k+3],mname[k+4],mname[k+5],mname[k+6],mname[k+7],year,1]) k=k+8 #print(data) print(len(data))#⼀共250条数据 #将结果存到CSV⽂件 wit open(./data.csv,w) as fout: cin= csv.writer(fout,lineterminator=\n) #写⼊row_ 1 cin.writerow([index,name,type,zpf,mantimes,price,area,datatime,year,mark]) for item in data: cin

您可能关注的文档

文档评论(0)

武松 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档