- 1、本文档共323页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
课件ppt电子教案完整版课件教材课件汇总全套课件全册课件完整版ppt完整版电子教案ppt课件汇总全套ppt全册ppt全套电子教案
贾俊平
2022-11-24
数据分析基础
2022-11-24
323页完整版课件 内容可修改PPT
基于 Python 的实现
贾俊平
2022-11-24
1.1 数据分析概述
1.2 Python 的初步使用
1.3 Python的数据处理
1.4 Python 绘图基础
第 1 章 数据分析与Python语言
1.1 数据分析概述
数据分析方法——什么是数据分析
数据分析(data analysis)是运用统计方法对收集来的数据进行分析,从中提取有用信息并得出结论的过程
数据分析的目的是把隐藏在数据中的信息有效地提炼出来,从而找出所研究对象的内在规律和特征
在实际应用中,数据分析可帮助人们做出判断和决策,以便采取适当行动
1.1 数据分析概述
数据分析方法——数据分析分类
从分析目的看 可以将数据分析分为描述性分析(descriptive analysis)、探索性分析(exploratory analysis)和验证性分析(confirmatory analysis)三大类。其中,描述性分析和是对数据进行初步的整理、展视和概括性度量,以找出数据的基本特征;探索性分析侧重于在数据之中发现新的特征,为形成某种理论或假设而对数据进行的分析;验证性分析则侧重于对已有理论或假设的证实或证伪。
从所使用的统计分析方法看可大致可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。描述统计主要是利用图表形式对数据进行汇总和展示,计算一些简单的统计量(诸如比例、比率、平均数、标准差等)进行分析。推断统计主要是根据样本信息来推断总体的特征,内容包括参数估计和假设检验等。参数估计是利用样本信息推断所关心的总体特征,假设检验则是利用样本信息判断对总体的某个假设是否成立
数据分析方法
从分析目的看
描述性分析
探索性分析
验证性分析
从统计方法看
描述统计
推断统计
1.1 数据分析概述
数据分析工具——软件分类——商业软件和非商业软件
商业软件——不推荐使用 商业类软件种类繁多,较有代表性的软件有SAS 、SPSS、Minitab、Stata等。多数人较熟悉的Excel虽然不是统计软件,但提供了一些常用的统计函数以及数据分析工具
这类软件虽有不同的侧重点,但功能大同小异,基本上能满足大多数人做数据分析的需要。商业类软件使用相对简单,容易上手
主要问题是价格不菲,多数人难以接近,此外,更新速度慢,难以提供最新方法的解决方案
1.1 数据分析概述
数据分析工具——软件分类——商业软件和非商业软件
非商业软件——推荐使用 非商业类软件则不存在价格问题。目前较为流行的软件有R语言和Python语言,二者都是免费的开源平台
R语言的一种优秀的统计软件,它是一种统计计算语言。R语言不仅支持各个主要计算机系统,还有诸多优点,比如,更新速度快,可以包含最新方法的解决方案;提供丰富的数据分析和可视化技术,功能十分强大。此外,R软件中的包(package)和函数均由统计专家编写,函数中参数的设置也更符合统计和数据分析人员的思维方式和逻辑,并有强大的帮助功能和多种范例,初学者也很容易上手
Python则是一种面向对象的解释型高级编程语言,并拥有丰富而强大的开源第三方库,也具有强大的数据分析可视化功能。Python于R的侧重点略有不同,R的主要功能是数据分析和可视化,且功能强大,多数分析都可以由R提供的函数实现,不需要太多的编程,代码简单,容易上手。Python的侧重点则是编程,具有很好的普适性,但数据分析并不是其侧重点,虽然从理论上说都可以实现,但往往需要编写很长的代码,帮助功能也不够强大,这对数据分析的初学者来说可能显得麻烦,但仍然不失为一种有效的数据分析工具
变量(variable)
观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样
“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量
数据(data)
变量的观测结果
1.1 数据分析概述
数据及其来源——变量和数据
变量分类
类别变量
(定性)
无序类别变量
(名义值)
有序类别变量
(顺序值)
布尔变量
(二值
文档评论(0)