- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
四分类方法-Read
Data Mining: Concepts and Techniques 四 分类方法 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 分类是数据挖掘中重要的任务 分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。 分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。 分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。 分类器的构造依据的方法很广泛: 统计方法:包括贝叶斯法和非参数法等。 机器学习方法:包括决策树法和规则归纳法。 神经网络方法。 其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。 分类方法的类型 从使用的主要技术上看,可以把分类方法归结为四种类型: 基于距离的分类方法 决策树分类方法 贝叶斯分类方法 规则归纳方法。 分类问题的描述 定义4-1 给定一个数据库 D={t1,t2,…,tn}和一组类 C={C1,…,Cm},分类问题是去确定一个映射 f: D?C,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj = {ti | f(ti) = Cj,1 ≤ i ≤ n, 而且ti ?D}。 例如,把学生的百分制分数分成A、B、C、D、F五类,就是一个分类问题: D是包含百分制分数在内的学生信息, C={A、B、C、D、F}。 解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。 数据分类的两个步骤 1.建立一个模型,描述预定的数据类集或概念集 数据元组也称作样本、实例或对象。 为建立模型而被分析的数据元组形成训练数据集。 训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。 通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。 2.使用模型进行分类 首先评估模型(分类法)的预测准确率。 如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。 基于距离的分类算法的思路 定义4-2 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)=sim(ti,Cl) ,?Cl∈C,Cl≠Cj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。 决策树表示与例子 决策树(Decision Tree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意 决策树分类的特点 决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。 基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这同时也是它的最大的缺点),只要训练例子能够用属性-结论式表示出来,就能使用该算法来学习。 决策树分类模型的建立通常分为两个步骤: 1、决策树生成 2、 决策树修剪 主要算法有: 1、ID3算法 2、 C4.5算法 贝叶斯分类 定义4-2 设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法: P(H)是先验概率,或称H的先验概率。P(X |H)代表假设H成立的情况下,观察到X的概率。P(H| X )是后验概率,或称条件X下H的后验概率。 贝叶斯分类器对两种数据具有较好的分类效果:一种是完全独立的数据,另一种是函数依赖的数据。 朴素贝叶斯分类 朴素贝叶斯分类的工作过程如下: (1)? 每个数据样本用一个n维特征向量X= {x1,x2,……,xn}表示,分别描述对n个属性A1,A2,……,An样本的n个度量。 (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类
您可能关注的文档
- 同步整流器中MOSFET的双向导电特性和整流损耗-中国电机工程学会.PDF
- 同向平均梯度的各向异性扩散模型.PDF
- 各机关核发之电子识别证.ppt
- 同步整流移动电源IC_V1.0-合励达移动电源方案.PDF
- 名词解释与填空-GDUFS.doc
- 同步时钟基准信号发生器.PDF
- 含理想二极管电阻电路的分析-江苏大学842T课程网.PDF
- 名图升级北现发布全新服务品牌-新民网.PDF
- 含铜超低碳微合金钢冷却过程硼的晶界偏聚-钢铁钒钛.PDF
- 吴娟-教育技术通讯.ppt
- 2025届安徽省舒城一中高三一诊考试英语试卷含解析.doc
- 广东省湛江市第二十一名校2023-2024学年高一下学期期中考试生物(选考)试卷.pdf
- 广东省湛江市第二十一名校2023-2024学年高一下学期期中考试生物(学考)试卷.docx
- 江苏省南通市合作盟校2025届高三压轴卷语文试卷含解析.doc
- 【权威】2025年高考第三次模拟考试 数学(新高考八省专用01 )(全解全析).docx
- 山东省菏泽市成武县全县联考2023-2024学年六年级下学期4月期中科学试题.docx
- 广东省湛江市第二十一名校2023-2024学年高一下学期期中考试生物(学考)试卷.pdf
- 2025届陕西省度西安中学高三下学期联考数学试题含解析.doc
- 河南省驻马店市2025届高考语文押题试卷含解析.doc
- 广东省湛江市雷州市第二名校2023-2024学年高一下学期生物期中试卷.docx
最近下载
- 2024北京高三一模生物汇编:稳态与调节(非选择题).docx
- 农村公路养护预算编制办法.docx VIP
- 环境管理员求职个人简历求职简历大学生优秀简历模板.doc VIP
- 云南省农村公路养护工程预算编制办法(定稿2019.05.13).pdf VIP
- 2025年重庆市普通高中学业水平选择性考试11月调研测化学试卷及答案解析.docx VIP
- 财商夏令营创业策划书.pdf
- 历史丨2025年重庆市普通高中学业水平选择性考试11月调研测试卷历史试卷及答案.pdf VIP
- 离心泵设计计算表.xls
- 低压配电柜基础知识精选.ppt
- 2025年保安员上岗证初级保安员考试题及答案(精选5套) .pdf VIP
文档评论(0)