- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
NBA运动员球员数据分析
NBA运动员数据分析
背景信息
当前,篮球运动是最受欢迎的运动之⼀。在此万受瞩⽬的运动下,打算针对篮球运动员个⼈的信息,技能⽔平等各项指标进⾏相关的分析与统计。例如,们可能会关注如下
的内容:
1.哪些球员从2014年到2019年近6年连续在榜?
2.对⽐各球员在2019年的各项数据如何?
3.詹姆斯-哈登随年份数据如何变化?
4.2019年球员数据分布如何?
5.篮球运动员的失误与上场时长有什么联系?
6.球员的各项数据之间的相关性如何?
7.哪些数据会对球员的得分有什么影响?
任务说明
概念
数据分析是指⽤适当的⽅法与⼯具,对收集来的⼤量数据进⾏分析,提取其中有意义的信息,从⽽形成有价值的结论的过程。
基本流程
在进⾏数据分析之前,需要清楚数据分析的基本流程。
明确需求与⽬的
分析篮球运动员,得出结论
数据收集
爬取⽹站数据
数据预处理
特征筛选
降维
数据清洗
缺失值
异常值
重复值
数据分析
数据建模
数据可视化
编写报告总结
实验步骤
获取收集
导⼊相关库
importos
importrequests
importre
importpandasaspd
fromlxmlimportetree
importwarnings
importmatplotlib.pyplotasplt
importseabornassns
importpyecharts.optionsasopts
frompyecharts.globalsimportThemeType
warnings.filterwarnings(ignore)
需要爬取的数据
爬⾍思路分析:
1.需求获取新浪体育⽹站的球员信息
2.寻找⽹址(球员的不同赛季的信息在展⽰html页⾯找不到)
可判断该信息是⼀个Ajax请求
通过浏览器抓包,和多次尝试在Postman软件上发送request请求
寻得球员分页信息的request发送相应url的规律,并循环遍历
3.获取request返回的内容
4.使⽤正则表达式对request返回信息进⾏筛选
5.将筛选的数据以csv格式储存在本地⽂件中
#爬⾍程序
defspidernba():
#创建的⽬录
path=./basketballdata
ifnotos.path.exists(path):
os.mkdir(path)
foriinrange(6):
url=/api?p=radarcallback=jQuery1113065386692977267421571969723673p=radars=leadersa=playerstopseason=+str(2019-i)+seasontype=
regitemtype=averageitem=pointsorder=1=+str(1571982115616+i)
response=requests.get(url)
#采⽤utf-8解码
response.encoding=utf8
#读取reponse
data=response.text
data=re.findall(\{(rank.*?personalfouls:.*?)\},data)
alist=[]
foritem
文档评论(0)