基于clementine的数据挖掘算法决策树概论.pptx

基于clementine的数据挖掘算法决策树概论

基于clementine的数据挖掘算法章节安排数据挖掘概述决策树C5.0算法算法231目录数据挖掘方法论步骤1确定培训需求步骤2确定培训目标步骤3设计培训方案步骤4步骤5落实培训成果步骤5落实培训成果业务理解数据理解数据准备建立模型模型评价模型应用商业目的模型输出模型定义列出指标评估数据质量数据清洗指标筛选选择算法建立模型模型评估是否符合商业目的将数据挖掘结果形成报告CRISP-DM数据挖掘实施方法论帮助企业把注意力集中在解决业务问题上,它包括了六个步骤,涵盖了数据挖掘的整个过程。本次培训内容数据准备—重要性分析变量重要性分析,是去除变量冗余,是对变量的浓缩和提炼,保留对输出变量的预测有重要贡献的变量和样本,剔除不重要的变量和样本。变量与输出变量、变量间的相关程度从变量自身考察变量重要性分析方法变量值中缺失值所占比例分类变量中,类别个数占样本比例数值变量的变异系数数值型变量的标准差输入、输出变量均为数值型:做两个变量的相关性分析输入变量为数值型、输出变量为分类型:方差分析(输出变量为控制变量、输入变量为观测变量)输入变量为分类型、输出为数值型:方差分析(输入变量为控制变量、输出变量为观测变量)输入、输出变量均为分类型:卡方检验方差分析(AnalysisofVariance)是利用样本数据检验两个或两个以上的总体均值间是否有差异的一种方法。在研究一个变量时,它能够解决多个总体的均值是

文档评论(0)

1亿VIP精品文档

相关文档