数据建模预分析技术-IBM.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据建模预分析技术-IBM

我们研究数据集中员工目前的薪水情况。 * 我们研究这个数据集中员工的教育水平部分情况 * P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P 图中各点近似呈一条直线。如果P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。 Q-Q图是一种散点图,对应于正态分布的Q-Q图,就[1]?是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息. Q-Q图可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。P-P图和Q-Q图的用途完全相同,只是检验方法存在差异。 由于P-P图和Q-Q图的用途完全相同,只是检验方法存在差异。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息. * * * 推断统计如何根据样本数据去推断总体数量特征的方法 描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。 统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。 我们在前面提到,很多研究数据集合服从某种分布,我们通过研究相对应分布的参数特征,比如均值,方差等,来判断推测总体,或未知样本的性质。这就是参数检验。参数检验中含有 然而在实际情况中,我们不能确定这个数据集服从某个分布。 比如, 1.样本个数很小:卫星发射试验,采样次数非常有限,我们很难从已知的试验中抽取出分布特征以及参数。为了预测分析下次试验,我们需要采用非参数检验 2.研究对象总体分布未知,而我们关心的性质和特征与总体分布无关,这时我们可以用非参数检验进行分析 非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。 * 如何根据样本数据去推断总体数量特征的方法 描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。 统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。 应用场景 * 背景模块 在银行贷款系统中,降低信贷风险,减少潜在的坏账,是银行决策者关心的问题。本实训通过使用 SPSS Statistics中的二分类Logistic回归分析对已有的还贷人的还贷记录进行分析建模,总结那些无力偿还贷款的人的一些共有的特征,从而建立的模型来对未来信贷进行风险评估,帮助企业提高分析洞察能力。 使用Logistic回归的原因 Logistic回归与一般线性回归有很多相同之处,最大的区别就在于他们的因变量不同,其他的过程与方法基本相似, Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的Logistic回归。 Logistic 回归的主要用途有三方面: (1).寻找关键因素。例如在医学领域,寻找导致疾病的某些危险因素;在商业领域,寻找影响客户是否购买产品的某些产品特性等 (2).预测。如果已经建立了Logistic回归模型,则可以根据模型,预测在不同的自变量情况下,致病因素或购买决策的概率有多大。 (3).判别。根据设定的阈值概率,将预测结果分成相应类别,最终锁定目标,完成决策。  这是Logistic回归最常用的三个用途,实际中的Logistic回归用途是极为广泛的,Logistic回归几乎已经成了医学和银行信贷系统中最常用的分析方法。 数据 该数据文件涉及某银行在降低贷款拖欠率方面的举

文档评论(0)

75986597 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档