《Python数据分析》ch06 数据分析库SciPy.pptxVIP

下载本文档

0
0
约5.47千字
约 38页
2025-08-05 发布于澳门
举报
版权申诉

《Python数据分析》ch06 数据分析库SciPy.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Python数据分析数据分析库SciPy第六章计算机专业·任务驱动应用型教材

01SciPy简介

SciPy简介01linalg模块linalg模块用于进行线性代数计算，线性代数的基本操作对象是矩阵，与NumPy相同，linalg的基本数据类型为数组、矩阵，该模块包含各种相关函数。norm函数用来计算矩阵或向量的模。该函数的调用格式如下：

SciPy简介01stats模块SciPy的stats模块中包含一些比较基本的数据统计分析函数，如t检验、正态性检验、卡方检验。statsmodels提供了更为系统的统计模型，包括线性模型、时序分析模型，还包含数据集、作图工具等。概率分布设X是一个随机变量，x是任意实数，函数

SciPy简介01概率分布称为X的分布函数。对于任意实数x?和x?（x?x?），有因此，若已知X的分布函数，就可以知道X落在任一区间[x，x]上的概率，从这个意义上说，分布函数完整地描述了随机变量的统计规律性。若连续型随机变量的概率密度为

SciPy简介01概率分布其中，μ和σ（a0）为常数，则称X服从参数为μ和σ的正态分布或高斯（Gauss）分布，记为X~N（μ，o?），即X服从均值为μ、方差为σ的正态分布。在自然现象和社会现象中，大量随机变量都服从或近似服从正态分布。例如，一个地区的男性成年人的身高、测量某零件长度的误差、海洋波浪的高度、半导体器件中的热噪声电流或电压等都服从正态分布。在概率论与数理统计的理论研究和实际应用中，正态随机变量起着特别重要的作用。

SciPy简介01在scipy.stats中，binom函数实现二项分布，poisson.pmf函数实现泊松分布，norm函数可以实现正态分布。正态分布函数如表6-3所示。

SciPy简介01数据分析在实际应用中，数据分析可帮助人们做出判断，以便采取适当的行动。在数据分析过程中，选择合适的分析方法和工具是很重要的，下面介绍几种常用的数据统计分析方法。相关性分析相关性分析显示一个变量与另一个变量有何种相关关系，如显示计件工资是否会带来更高的生产率。

SciPy简介01回归分析回归分析是对一个变量值与另一个变量值间差异的定量预测。回归模拟因变量和解释变量之间的关系，这些变量通常绘制在散点图上，还能用回归线显示这些关系是强还是弱。散点图上的异常值非常重要。例如，外围数据点可能代表公司最关键的供应商或最畅销产品的输入。但是，回归线的性质通常需要忽略这些异常值。

SciPy简介01假设检验假设检验是数理统计学中根据一定的假设条件，由样本推及总体的一种统计分析方法，主要针对问题的需要对所研究的总体提出某种假设。通常，比较两个统计数据集，或者将通过采样获得的数据集与来自理想化模型的合成数据集进行比较。针对两个数据集之间的统计关系提出一种假设，并将其作为替代方案进行比较理想化的零假设，提出两个数据集之间没有关系。

SciPy简介01方差分析方差分析又称“变异数分析”，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈波动状。造成波动的原因可分成两类：一是不可控的随机因素，二是研究中施加的对结果形成影响的可控因素。

SciPy简介01单变量统计分析统计量是统计理论中用来对数据进行分析、检验的变量，是大量微观量的统计平均值，具有统计平均的意义。被分析的数据只包含一个变量，称为单变量统计，是数据分析中最简单的形式。单变量统计分析的主要目的是通过对数据的统计描述了解当前数据的基本情况，并找出数据的分布模型。数据统计量从集中趋势上看，指标有均值、中位数、分位数、众数。从离散程度上看，指标有极差、四分位数、方差、标准差、协方差、变异系数。从分布上看，指标有偏度（偏度系数）、峰度（峰度系数）等。需要考虑的还有极大值、极小值（数值型变量）和频数，以及构成比（分类或等级变量）。

02相关性分析

相关性分析02图表相关性分析最简单的相关性分析方法是将数据进行可视化处理，简单地说，就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系，而将数据点绘制成图表后，趋势和联系就会变得清晰起来。折线图对于有明显时间维度的数据，可以选择使用折线图。

相关性分析02散点图比折线图更直观的是散点图，散点图去除了时间维度的影响，只关注数据间的关系。散点图的横轴是一个变量，纵轴是另一个变量，可以直观地看到相关性的方向和强弱。通过观察散点图上数据点的分布情况，可以推断出变量间的相关性。如果变量之间不存在相互关系，那么在散点图上就会表现为随机分布的离散的点，将那些距离点集群较远的点称为离群点或异常点。如果存在某种相关性，那么大部分的数据点就会相对密集并以某种趋势呈现。

相关性分析02图表相关性分析协方差用来衡量两个变量的总体误差，如果两个变量的变化趋势一致，那么协方差是正值，说明两个