- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘算法 ——分类数据挖掘 分类(Classification)的概念 分类是最常见的数据挖掘任务,也是人类众多规则之一。 学科分类 生物分类(瑞典植物学家Carl Linnaeus发明) 分成界、门、纲、目、科、属、种。 动物界,如有脊髓的动物被划分为脊椎动物门;附加的特征用于将脊椎动物进一步细分为鸟、哺乳动物、爬行动物纲;这些纲进一步细分,直到分类学的最底层。 同一种的成员在很多方面存在相似性。如形态、繁殖等 新物种的发现 北京时间12月12日消息,美国《时代》周刊周二评选出2009年度十大新物种,其中“博萨维毛鼠”位居榜首,迷你霸王龙、重达1吨的史前巨蟒均榜上有名。 分类(Classification)的概念 分类包括考察一个新出现的对象的特征,并归类到已定义类中。 在数据挖掘中,分类的对象通常是数据库表或文件中的记录 分类工作首先要有一个清晰定义的类 注意: 类的个数是确定的,预先定义好的 其次,要有一系列已分类实例 分类的应用 分类实际上是 先建立某种模型,即根据数据集的特点构造一个分类函数或分类模型。 然后将其用于对未分类的数据进行分类,即此分类函数或模型能够把未知类别的样本映射到给定的类别之一。 分类与预测 这是两种数据分析的形式,用來找出模型以描述数据或预测未來的变化趋势。常用于:信誉分析、目标市场、医疗诊断、性能预测等。如 将信用卡申请者分为高、中、低风险 发现欺诈性理赔申请 将考生成绩分成优、良、中、差 … 分类 银行信贷员需要分析资料,弄清楚哪些贷款申请是安全的,哪些是有风险的。故将贷款申请者分为“安全” 和 “有风险” 两类。 预测 银行信贷员需要预测贷款给某个客户多少钱是安全的。 分类挖掘的方法 要进行分类,就需要有一个分类的规则。 分类的最终结果取决于分类规则 分类的准确度取决于分类规则的优略。 规则很容易用语言表达 交流语言(英语、汉语、…) 结构化语言 if then 程序语言。如SQL在特定的类别中检索记录 逻辑表达式 分类规则也可以通过手工的方式辛苦地建立起来,也可以通过某种算法得到。 分类器的构造方法 (1)统计方法 常见的统计方法有knn算法 kNN(k Nearest Neighbors) 假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, kNN就是计算每个样本数据到待分类数据的距离,取与待分类数据最近的k各样本数据,那么这个k个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。 基于事例的学习方法。 分类器的构造方法 (2)机器学习方法 决策树法 归纳法 (3)神经网络方法 神经网络方法主要是BP算法 粗糙集(rough set)知识表示是产生式规则 通常,一个分类模型需要在准确度(Accuracy)和透明度之间进行权衡。 在某些分类应用中,准确是唯一重要的 如邮件分类。通常不关心该模型是如何工作的。 在另一些应用中,透明度就显得格外重要。 如考试不及格等 分类模型的构造过程:两个阶段 训练阶段 在构造模型前,将数据集随机地分为训练集和测试数据集 训练阶段使用训练数据集,通过分析训练数据集的属性来构造模型 假设每个元组属于一个预定义类,由“类标号”属性来确定。训练集中的单个元组称为训练样本, 一个具体样本的形式可为:( V1, V2, ..., Vn; c );其中Vi表示属性值,c表示类别。 由于已提供每个训练样本的标号,故称有指导的学习 通常分类模型以分类规则、判定树、数学公式等形式提供 测试阶段 用于评估分类模型的准确率。如果一个分类模型的准确率是可接受的,就可以用此模型来对其他未知类别的元组进行分类 分类的两个阶段 a.模型训练阶段 训练集 b.使用模型 分类阶段 评估准确率(测试集)对类标号未知的新数据分类 应用过程举例 分类的规范化描述 给定数据集D={t1,t2,…,tn},元组ti?D,类的集合C={C1,……,Cm}, 分类问题定义为 从数据集到类集合的映射f:D?C, 即数据集中的元组ti分配到某个类Cj中, 有Cj ={ti|f(ti) = Cj,1≤i≤n,且ti∈D}。 基于决策树的分类方法 决策树是一种常用的、有力的分类工具。 决策树是一种树形结构,决策树包含一系列规则。 通过应用一些简单的规则,将大型记录集分割为小记录集,通过每一次连续分割,结果集中的成员彼此变得越来越相似。 如生物的分类。 “二十问题”游戏就是典型的决策树分类 在游戏中,对第一个问题的回答决定了后续的提问,前面的问题先创建具有许多成员的宽泛范畴,后续问题将宽泛范畴分割为越来越小的集合。 如果精心挑选所问的问题,也许只需几个问题就足以得到正确答案。 一般情况下,很少超过20个提问。 基于决策树的分类方法 “二十
文档评论(0)