- 17
- 0
- 约9.39千字
- 约 67页
- 2018-10-25 发布于福建
- 举报
数据挖掘算法培训讲义分类与预测
数据挖掘:概念与技术(翻译 张磊) DM算法-1分类和预测出处:《数据挖掘:概念与技术》?Jiawei Han and Micheline Kamber DM算法-1 分类和预测 什么是分类? 什么是预测? 关于分类与预测的问题 通过决策树归纳来分类 贝叶斯分类 通过反向传播来分类 基于关联规则挖掘的概念来分类 其它分类方法 预测 分类准确率 总结 分类与预测 分类: 预测分类标签 基于训练集和分类属性值(分类标签)构造分类模型,然后用该模型分类新数据 预测: 对连续函数建模, 即预测未知的或缺失的数据 典型应用 信用审核 目标营销 医疗诊断 治疗效果分析 分类—两步骤过程 建立一个模型: 描述预定的数据类或概念集 假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类 用于创建模型的元组集合: 训练集 模型可以用分类规则, 决策树, 或数学公式来表达 使用模型: 对未知(分类标签的)对象进行分类 模型估计准确率 已知测试样本的分类标签, 将其和模型的分类结果比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集应独立于训练集, 否则可能导致过度拟合 分类过程 (1): 模型创建 分类过程 (2): 使用模型来预测 有指导的 vs. 无指导的学习 有指导的学习 (分类) 指导: 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 基于训练集对新数据进行分类 无指导的学习 (聚类) 训练数据的类标签是未知的 给定一组样本, 试图建立分类或数据的聚类 DM算法-1 分类和预测 什么是分类? 什么是预测? 关于分类与预测的问题 通过决策树归纳来分类 贝叶斯分类 通过反向传播来分类 基于关联规则挖掘的概念来分类 其它分类方法 预测 分类准确率 总结 分类与预测相关问题 (1): 数据准备 数据清洗 数据准备是为了减少噪声数据, 并处理缺失值 相关分析 (特征选取) 删除无关属性和冗余属性 数据转换 数据的泛化和归一化 分类与预测的相关问题 (2): 分类方法的评估 预测准确率 速度和扩展能力 创建模型所需时间 应用模型所需时间 健壮性 可以处理噪声和缺失值 扩展能力 在大型数据库上的处理能力 可解释性 模型能否增强用户对数据的理解和洞察力 是否良好的规则 决策树的大小 分类规则的简洁程度 DM算法-1 分类和预测 什么是分类? 什么是预测? 关于分类与预测的问题 通过决策树归纳来分类 贝叶斯分类 通过反向传播来分类 基于关联规则挖掘的概念来分类 其它分类方法 预测 分类准确率 总结 通过决策树归纳进行分类 决策树 类似于流程图的树型结构 内部节点代表对某个属性的一次测试 分支代表测试的输出结果 叶节点代表分类标签或分布 决策树的生成包括两个阶段 树的创建 首先, 所有训练样本都位于根节点 递归地基于选择属性来划分样本集 树的修剪 识别并删除那些反映噪声或孤立点的分支 应用决策树: 对未知样本进行分类 在决策树上测试样本的各个属性值 训练数据集 输出: 预测“是否会购买计算机”的决策树 决策树归纳算法 基本算法(贪婪算法) 树的创建是一种自顶向下递归的分而治之方法 首先, 所有训练样本都位于根节点 属性都是类别型变量 (若为连续值, 则需先离散化) 基于选择的属性, 对样本进行递归划分 通过启发式搜索或统计量来选取测试属性 (例如, 信息增益) 停止划分的条件 对于某个给定节点, 所有样本都属于同一分类 没有剩余属性可供进一步划分 – 按照少数服从多数的原则来确定叶节点的分类 所有样本都已分类完毕 属性选取的度量 信息增益 (ID3/C4.5) 所有属性应为类别型变量 可以通过改进来处理连续值属性 Gini索引 (IBM IntelligentMiner) 所有属性应为连续值变量 对于每个属性, 假定已存在若干可能的切分点 可能需要其它工具(如聚类)的辅助来获取切分点 可以通过改进来处理类别型属性 信息增益 (ID3/C4.5) 选取具有最高信息增益的属性 假定存在两个分类, P 和N 样本集S中包含p个样本属于类别P, n个样本属于类别N 用于判别S中任意样本属于类别P 或N 的信息量, 定义为 决策树归纳中的信息增益 假定通过属性A可以将样本集S划分为多个集合{S1, S2 , …, Sv} 如果Si 包含pi 个P 类样本和ni 个N 类样本, 熵, 或将S所有子树中的对象进行分类所需的期望信息i 定义为 在A上分枝将获得的编码信息是 通过计算信息增益来选取属性 类别P: buys_computer = “yes” 类别N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 计算属性age的熵: 因此 同样的
您可能关注的文档
- 排水管道沟槽开挖专项施工的方案.doc
- 排架结构脚手架施工的方案.doc
- 排水管网的设计步骤.docx
- 排污许可证申请和核发技术规范 总则.pdf
- 排洪渠专项施工的方案.docx
- 排非必备同步录音录像法律大全.doc
- 探我国过滤用纺织品企业生存的现状.pptx
- 探索和表达规律教学设计.doc
- 探索校企合作办学的模式.doc
- 探索和表达规律精品.ppt
- 宣贯培训(2026年)《NYT 4512-2025 非洲菊疫病抗性鉴定技术规程》.pptx
- 宣贯培训(2026年)《NYT 4514-2025木薯副产物综合利用导则》.pptx
- 宣贯培训(2026年)《NYT 4513-2025木薯全程机械化生产技术规范》.pptx
- 宣贯培训(2026年)《NYT 4470-2025全株玉米青贮质量分级》.pptx
- 宣贯培训(2026年)《NYT 4468-2025玉米供需平衡表编制规范》.pptx
- 宣贯培训(2026年)《NYT 4469-2025全株玉米青贮质量评定 综合指数法》.pptx
- 宣贯培训(2026年)《NYT 4474-2025东北地区玉米-大豆轮作生产技术规程》.pptx
- 宣贯培训(2026年)《NYT 4472-2025玉米耐盐碱鉴定评价技术规程》.pptx
- 宣贯培训(2026年)《NYT 4473-2025玉米抗旱性鉴定评价技术规程》.pptx
- 宣贯培训(2026年)《NYT 4478-2025甘薯收获技术规程》.pptx
最近下载
- 新版湘少版四年级下册英语教案全册.doc
- 教科版小学六年级下册综合实践活动主题二 第2课 我给学校提建议(课件).pptx VIP
- FR-WI-08-23 环境管理物质执行标准 A21.xls VIP
- 比亚迪环境管理物质标准A6.pdf VIP
- 大数据视角下小学生学习能力评价与提升策略实践教学研究课题报告.docx
- 2025年落实上级统计督察整改工作情况的报告范文.docx VIP
- HSF001--A1环境管理物质管理标准.doc VIP
- 外军管理概论题库及答案.doc VIP
- T SHJNXH 0021—2025 电化学储能电站运行综合能效等级及评价.pdf VIP
- 2025年外军管理概论试题及答案.docx VIP
原创力文档

文档评论(0)