- 26
- 0
- 约5.4千字
- 约 47页
- 2017-06-22 发布于四川
- 举报
5.2.2 绘制散点图 数值型变量之间相关性的分析还可以通过散点图直观观察。 这里观察基本费用和年龄之间的相关性,可选择Graphs卡中的Plot节点并将其连接到数据流恰当的位置上。 5.3 变量分布探索 统计建模中常常要求变量服从正太分布,如果不能满足分布要求,应对变量进行适当的转换处理。 Clementine提供了非常直观的图形方式,大大缩短了变量分布探索的过程。可通过Output卡中的Transform节点实现该过程。 normal distribution ?? 正态分布 一种概率分布。正态分布是具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ^2 )。 服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ^2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。 分析各种费用变量使其接近正太分布 观察第1列图形的变化。可以选择Generate菜单中的Derive Node子菜单,Clementine将在数据流编辑区自动生成一个由若干个Derive节点组成的超节点,自动实现对原始变量的转换计算。 5.4 两分类变量相关性的研究 两分类变量的相关性研究具有广泛的应用。例如,针对电信客户数据,分析客户流失与套餐类型、婚姻状况、是否采用电子支付方式等是否有关。 两分类变量相关性研究可以从图形分析入手。 5.4.1 两分类变量相关性的图形分析 这里对电信客户数据的分析目标是,分析套餐类型的分布特征,以及流失客户在套餐类型上的分布。 注意:套餐类型和是否流失变量均为分类变量。 一、条形图 执行结果 二、网状图 执行结果 5.4.2 两分类变量相关性的数值分析 以上图形方法并不能准确反映两分类变量之间的相关程度,精细的数值分析是必要的,一般采用列联分析。 列联分析从两方面进行:第一,计算两分类变量的列联表;第二,在列联表的基础上分析表中行列变量之间的相关性。 用Output卡中的Matrix节点实现。 计算两分类变量的列联表 选择Appearance选项卡,具体设置如下: 从基本描述角度看,客户流失与套餐类型是有关联性的。 5.5 两总体的均值比较 两总体均值的比较以两组样本的对比为基础,最终目标是希望利用两组样本数据对样本来自的两个总体的平均值是否存在显著差异进行检验。 例如:分析保持客户和流失客户各种费用、家庭月收入、年龄等是否存在显著差异。可先从样本的图形分析入手,绘制各种费用的直方图并观察保持客户和流失客户的分布。如果分布差异不明显,则没有理由认为保持客户与流失客户在各种费用的均值上存在显著差异。 两总体均值比较的图形分析 这里,对电信客户数据的分析目标是,分析保持客户与流失客户的基本费用是否存在显著差异。 选择Graphs选项卡中的Histogram节点绘制直方图,并将其连接到数据流的恰当位置。 执行结果 5.6 变量重要性分析 变量的重要性可以从两方面联合考察: 第一,从变量本身考察。重要的变量应是携带信息较多的变量,也就是方差较大的变量。 第二,从变量与输出变量相关角度考察。从变量与输出变量相关角度看,重要的输入变量应对输出变量的分类预测有显著意义。 变量重要性分析的应用示例 这里,对电信客户数据的分析目标是流失为输出变量,其他变量均视为输入变量,给出输入变量对输出变量重要性的排序。 选择Modeling选项卡中的Feature Selection节点。 1.中位数(Median)统计学名词,是指将统计总体当中的各个变量值按大小顺序
您可能关注的文档
- 2017岗位竞聘报告图文.pptx
- 2017年专转本英语复习资料专转本英语题型分析.ppt
- 2017工作总结模板范文图文.pptx
- 2017红蓝双色微立体岗位竞聘报告.pptx
- 2017最新述职报告模板范文(带内容).pptx
- 201班第四周班会课课件.ppt
- 203班学习与纪律主题班会.ppt
- 203班珍爱生命预防溺水主题班会.ppt
- 2017英语高考一轮复习语法名词精炼版.ppt
- 24小时救援服务方案报告.ppt
- 2026春节节节后复工复产第一课培训课件.pptx
- 全球大类资产周观点(92):债券强势的持续性?.docx
- 南美投资机遇(二):巴西篇.docx
- 公众对水产动物福利的认知调查报告-英文版.docx
- 电力现货交易理论、规则、价格预测及负荷预测.docx
- 党员干部2025年度生活会个人“五个带头”检视剖析材料参考范文.docx
- 民政部门党支部2025年度组织生活会班子“六个对照”对照检查材料(范文).docx
- 机关党组成员个人2025年度民主生活会“五个带头”对照检查材料范文.docx
- 局长2025年度民主生活会“五个带头”对照检查发言提纲范文.docx
- 普通党员2025年度组织生活会个人“五个方面”剖析发言材料(通用)范文.docx
最近下载
- YYT 0471.2-2004 接触性创面敷料试验方法 第2部分 透气膜敷料水蒸气透过率.docx VIP
- XXX油库改扩建工程(建筑专业监理实施细则).doc VIP
- 机械制图三视图学习课件.ppt VIP
- 金融不良资产收购之尽职调查[官方2017年最新版].pdf VIP
- 4.3《小练习(3)》(教学课件)四年级 数学下册 沪教版.pptx VIP
- 贵州省2019年高职(专科)分类招生中职生文化综合考试数学试卷.docx VIP
- 设备验收单范本.doc VIP
- DB3707_T 101-2023 规模化鸭场坦布苏病毒病防控技术规程.docx VIP
- 《会计信息系统应用》教案 第2课 系统明白卡和系统管理.pdf VIP
- 2025公安部大数据中心招聘33人笔试参考题库附答案解析.docx VIP
原创力文档

文档评论(0)