财经大数据分析——以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素——应用统计分析、 使用ARIMA模型预测股票价格——时间序列.pptx

财经大数据分析——以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素——应用统计分析、 使用ARIMA模型预测股票价格——时间序列.pptx

Python与财经大数据分析基础第8章分析一般公司债的票面利率影响因素——应用统计分析CONTENTS目录03推断统计01描述性统计04回归分析02随机变量及其概率分布05应用实践01描述性统计8.1描述性统计(一)概述描述性统计是指综合运用计算指标、分类等方式来描述一组数据的特征,帮助读者了解数据。描述性统计的基本指标主要包括数据的位置以及数据的离散程度。8.1描述性统计(二)数据的位置分布在获取数据之后,我们通常需要了解数据的位置分布特征,例如最小值、最大值、平均数、中位数、众数、分位数等指标。Python中可以使用Pandas模块完成数据位置指标的获取。函数函数说明DataFrame.min()/DataFrame.max()最小值/最大值DataFrame.mean()平均数DataFrame.median()中位数DataFrame.mode()众数DataFrame.quantile()分位数8.1描述性统计(三)数据的离散程度数据位置指标能帮助读者分析一组数据的平均水平或中间位置,但是要了解数据集中和分散程度,则需要用到极差、偏差、方差以及标准差,在Python中主要通过Pandas模块完成数据离散度指标的获取。函数函数说明DataFrame.max()-DataFrame.min()极差DataFrame.mad()平均绝对偏差DataFrame.var()方差DataFrame.std()标准差8.1描述性统计(三)describe函数Pandas库提供descibe()函数,可以直接得到描述性统计的主要指标,例如样本量、均值、方差、最值、分位数等统计特征。02随机变量及其概率分布8.2随机变量及其概率分布(一)概述随机变量是随机试验各种结果的实值单值函数,随机事件的数量表现。随机变量分为离散型随机变量和连续型随机变量。一般而言,随机数并不是真正的“随机”,而是服从于某种概率分布,根据随机变量的分类,有离散型概率分布和连续型概率分布。财会金融领域经常使用的概率分布如下所示。8.2随机变量及其概率分布(二)正态分布?正态分布又叫高斯分布,假设x服从期望为μ,方差为的正态分布,概率密度函数如下,记作X~N(μ,)。如果正态分布中的期望μ等于0,方差等于1,此时的正态分布被称为标准正态分布。为了便于描述和应用,常将正态变量作数据转换,将一般正态分布转化成标准正态分布:8.2随机变量及其概率分布(二)正态分布在Numpy库中使用normal()函数生成正态分布。8.2随机变量及其概率分布(三)t分布假设X服从标准正态分布N(0,,1),Y服从自由度为n的卡方分布,那么变量Z服从自由度为n的t分布,记作Z~t(n)。随着自由度n逐渐增大,t分布将逐渐接近标准正态分布。8.2随机变量及其概率分布(四)F分布假设两个随机变量x1和x2相互独立,且分别服从自由度是n1和n2的卡方分布,则称统计量F服从自由度n1和n2的F分布,记作F~F(n1,n2)。03推断统计8.3推断统计(一)概述推断统计是研究如何利用样本数据来推断总体特征的统计方法。推断统计包括两方面的内容:参数估计和假设检验。8.3推断统计(二)参数估计?参数估计是推断统计的一种重要方法,是指根据样本数据来估计总体分布中未知参数的过程,主要分为点估计和区间估计。点估计是构造一个依赖于样本的统计量,作为总体分布中未知参数的估计值。比如,用样本均值估计总体均值μ,用样本方差估计总体方差。区间估计在点估计的基础上构造出适当的区间范围作为总体分布未知参数真值所在范围的估计。未知参数的估计区间被称为置信区间,区间估计的可信程度称为置信水平,一般用1-α表示。8.3推断统计(三)假设检验假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的推断统计方法。进行假设检验主要经历四个步骤。第一,提出原假设H0和备择假设H1。第二,构造检验的统计量及其分布。第三,确定显著性水平α,以及确定检验规则。第四,根据检验规则作出决策。?不拒绝H0拒绝H0H0为真1-α(正确)α(拒真错误)H1为假?(取伪错误)1-?(正确)8.3推断统计(二)假设检验t检验主要用于样本含量较小(例如样本量小于30),总体标准差σ未知的正态分布。常见的t检验主要有单样本t检验、配对样本t检验和独立样本t检验。04回归分析8.4回归分析(一)协方差cov()函数协方差表示的是两个变量总体误差的期望。如果两个变量的变化趋势一致,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,那么两个变量之间的协方差就是负值;如果两个变量是统计独立的,那么二者之间的协方差就是0。8.4回归分析(二)相关系数c

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档