- 1
- 0
- 约4.08千字
- 约 34页
- 2019-03-04 发布于江苏
- 举报
第5章 数据分类24750
数据仓库与数据挖掘 第5章 数据分类 5.1 引例 分类的定义 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 5.1 引例 5.1 引例 分类问题使用的数据集格式 描述属性可以是连续型属性,也可以是离散型属性; 类别属性必须是离散型属性。 连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的,例如属性“Age” 离散型属性是指该属性的取值是不连续的,例如属性“Salary”和“Class” 5.1 引例 分类问题使用的数据集格式 分类问题中使用的数据集可以表示为X={(xi,yi)|i=1,2,…,total} xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值 yi表示数据样本xi的类标号,假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性C的具体取值 未知类标号的数据样本x用d维特征向量x=(x1,x2,…,xd)来表示 5.2 分类问题概述 5.2.1 分类的过程 5.2.2 分类的评价准则 5.2.1 分类的过程 5.2.1 分类的过程 获取数据 输入数据、对数据进行量化 预处理 去除噪声数据、对空缺值进行处理 数据集成或者变换 分类器设计 划分数据集、分类器构造、分类器测试 分类决策 对未知类标号的数据样本进行分类 训练集与测试集 假如要做一个预测不同用户的购买产品的预测: 首先:用户有他的属性如 年龄、职业或者包括他的历史性息的保存。 其次:需要编写一个软件实现这种预测,而比编写软件要有真实数据做依据,比如你得到了一个大商场的用户信息,有10000条记录。 此时可以从这10000条记录中选取7000条记录,作为训练集。 比如说:让程序根据用户的基本信息预测出购买信息,再做出对比,直至效果达到满意程度为止。 程序编完了后,因为你再编程过程中是利用训练集的数据为依据的,所以你的程序很可能有局限性,值局限于训练集的数据上。 你就可以使用哪剩下的3000条数据,即测试集,用它来测试你软件是否具有普遍性。 5.2.2 分类的评价准则 给定测试集Xtest={(xi,yi)|i=1,2,…,N} N表示测试集中的样本个数 xi表示测试集中的数据样本 yi表示数据样本xi的类标号 对于测试集的第j个类别,假设 被正确分类的样本数量为TPj 被错误分类的样本数量为FNj 其他类别被错误分类为该类的样本数据量为FPj 5.2.2 分类的评价准则 精确度:代表测试集中被正确分类的数据样本所占的比例 5.2.2 分类的评价准则 查全率:表示在本类样本中被正确分类的样本所占的比例 查准率:表示被分类为该类的样本中,真正属于该类的样本所占的比例 5.2.2 分类的评价准则 F-measure:是查全率和查准率的组合表达式 β是可以调节的,通常取值为1 5.2.2 分类的评价准则 几何均值 :是各个类别的查全率的平方根 5.3 决策树 5.3.1 决策树的基本概念 5.3.2 决策树算法ID3 5.3.3 ID3算法应用举例 5.3.4 决策树算法C4.5 5.3.5 SQL Server 2005中的决策树应用 5.3.6 决策树剪枝 5.3 决策树 决策树的优点: 进行分类器设计时,决策树分类方法所需时间相对较少; 决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式; 可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解; 适用于离散值属性、连续值属性; 采用自顶向下的递归方式产生一个类似于流程图的树结构; 在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。 5.3.1 决策树的基本概念 5.3.1 决策树的基本概念 5.3.2 决策树算法ID3 ID3只能处理离散型描述属性;在选择根节点和各个内部节点上的分枝属性时,采用信息增益作为度量标准,选择具有最高信息增益的描述属性作为分枝属性。 5.3.2 决策树算法ID3 X={(xi,yi)|i=1,2,…,total}; xi=(xi1, xi2,…, xid)对应d个描述属性A1,A2,…,Ad的具体取值; yi(i=1,2,…,total)表示样本xi的类标号,假设要研究的分类问题含有m个类别,则yi∈{c1,c2,…,cm}。 假设nj是数据集X中属于类别cj的样本数量,则各类别的先验概率为P(cj)=nj/total,j=1,2,…,m。 5.3.2 决策树算法ID3 对于数据集X,计算期望信息 计算描述属性Af划分数据集X所得的熵 假设Af有
您可能关注的文档
- 第24章 模拟量和数字量的转换.ppt
- 第21课古诗《示儿》课件.ppt
- 第24课 人民解放战争的胜利 课件.ppt
- 第24课_开创外交新局面.ppt
- 第25课 世界多极化趋势92935.ppt
- 第24课 欧洲的经济区域一体化【岳麓版】(课件11).ppt
- 第26章 附加域控制器_Z_V1.docx
- 第2章 国际物流系统.ppt
- 第23课__领先世界的科学技术[北师大版].ppt
- 第2章 标的物及与其相关的条款【国际贸易实务课件】.ppt
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- Young Sheldon《小谢尔顿》第七季第六集完整中英文对照剧本.docx VIP
- 量化经典高收益量化策略.ppt VIP
- Young Sheldon《小谢尔顿》第七季第五集完整中英文对照剧本.docx VIP
- Young Sheldon《小谢尔顿》第七季第四集完整中英文对照剧本.docx VIP
- Young Sheldon《小谢尔顿》第七季第三集完整中英文对照剧本.docx VIP
- 连锁餐饮企业顾客满意度研究—以广州市点都德为例.doc VIP
- 高中化学必修第二册第六章 化学反应与能量.pdf VIP
- Young Sheldon《小谢尔顿》第七季第二集完整中英文对照剧本.docx VIP
- 合理用药指南.pptx VIP
- Young Sheldon《小谢尔顿》第七季第一集完整中英文对照剧本.docx VIP
原创力文档

文档评论(0)