Clemitine数据的基本分析.ppt

下载文档

1
0
约5.4千字
约 47页
2017-06-25 发布于北京
举报
版权申诉
保障服务

Clemitine数据的基本分析.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

5.2.2 绘制散点图数值型变量之间相关性的分析还可以通过散点图直观观察。这里观察基本费用和年龄之间的相关性，可选择Graphs卡中的Plot节点并将其连接到数据流恰当的位置上。 5.3 变量分布探索统计建模中常常要求变量服从正太分布，如果不能满足分布要求，应对变量进行适当的转换处理。 Clementine提供了非常直观的图形方式，大大缩短了变量分布探索的过程。可通过Output卡中的Transform节点实现该过程。 normal distribution ?? 正态分布一种概率分布。正态分布是具有两个参数μ和σ^2的连续型随机变量的分布，第一参数μ是服从正态分布的随机变量的均值，第二个参数σ^2是此随机变量的方差，所以正态分布记作N(μ，σ^2 )。服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大，而取离μ越远的值的概率越小；σ越小，分布越集中在μ附近，σ越大，分布越分散。正态分布的密度函数的特点是：关于μ对称，在μ处达到最大值，在正（负）无穷远处取值为0，在μ±σ处有拐点。它的形状是中间高两边低，图像是一条位于x轴上方的钟形曲线。当μ=0，σ^2 =1时，称为标准正态分布，记为N（0，1）。μ维随机向量具有类似的概率规律时，称此随机向量遵从多维正态分布。多元正态分布有很好的性质，例如，多元正态分布的边缘分布仍为正态分布，它经任何线性变换得到的随机向量仍为多维正态分布，特别它的线性组合为一元正态分布。分析各种费用变量使其接近正太分布观察第1列图形的变化。可以选择Generate菜单中的Derive Node子菜单，Clementine将在数据流编辑区自动生成一个由若干个Derive节点组成的超节点，自动实现对原始变量的转换计算。 5.4 两分类变量相关性的研究两分类变量的相关性研究具有广泛的应用。例如，针对电信客户数据，分析客户流失与套餐类型、婚姻状况、是否采用电子支付方式等是否有关。两分类变量相关性研究可以从图形分析入手。 5.4.1 两分类变量相关性的图形分析这里对电信客户数据的分析目标是，分析套餐类型的分布特征，以及流失客户在套餐类型上的分布。注意：套餐类型和是否流失变量均为分类变量。一、条形图执行结果二、网状图执行结果 5.4.2 两分类变量相关性的数值分析以上图形方法并不能准确反映两分类变量之间的相关程度，精细的数值分析是必要的，一般采用列联分析。列联分析从两方面进行：第一，计算两分类变量的列联表；第二，在列联表的基础上分析表中行列变量之间的相关性。用Output卡中的Matrix节点实现。计算两分类变量的列联表选择Appearance选项卡，具体设置如下: 从基本描述角度看，客户流失与套餐类型是有关联性的。 5.5 两总体的均值比较两总体均值的比较以两组样本的对比为基础，最终目标是希望利用两组样本数据对样本来自的两个总体的平均值是否存在显著差异进行检验。例如：分析保持客户和流失客户各种费用、家庭月收入、年龄等是否存在显著差异。可先从样本的图形分析入手，绘制各种费用的直方图并观察保持客户和流失客户的分布。如果分布差异不明显，则没有理由认为保持客户与流失客户在各种费用的均值上存在显著差异。两总体均值比较的图形分析这里，对电信客户数据的分析目标是，分析保持客户与流失客户的基本费用是否存在显著差异。选择Graphs选项卡中的Histogram节点绘制直方图，并将其连接到数据流的恰当位置。执行结果 5.6 变量重要性分析变量的重要性可以从两方面联合考察：第一，从变量本身考察。重要的变量应是携带信息较多的变量，也就是方差较大的变量。第二，从变量与输出变量相关角度考察。从变量与输出变量相关角度看，重要的输入变量应对输出变量的分类预测有显著意义。变量重要性分析的应用示例这里，对电信客户数据的分析目标是流失为输出变量，其他变量均视为输入变量，给出输入变量对输出变量重要性的排序。选择Modeling选项卡中的Feature Selection节点。 1.中位数（Median）统计学名词，是指将统计总体当中的各个变量值按大小顺序