- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 数据挖掘的基本算法 主要内容 分类规则挖掘的基本思想是什么? 预测分析与趋势分析规则的基本思想是什么? 关联算法的基本思想是什么? 聚类算法的基本思想是什么? 统计分析算法的基本思想是什么? 品种优化算法的基本思想是什么? 数据挖掘的进化算法的基本思想是什么? 1.分类规则挖掘的基本思想是什么? 分类(classification) 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 主要目的是分析输入数据,通过在训练集中的数据表现出来的特性,为每一类找到一种准确的描述或模型。 分类(classification) 分类问题是数据挖掘领域中研究和应用最为广泛的技术之一 分类问题在商业、银行业、医疗诊断、生物学、文本挖掘和因特网筛选等领域都有广泛应用。 银行业,可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减少银行的损失; 医疗诊断,可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命; 因特网筛选,可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。 数据分类的基本步骤(参见P126~127) 数据分类过程主要包含两个步骤 学习建模 分类测试 数据分类步骤一:学习建模 建立一个描述已知数据集类别或概念的模型;该模型是通过对数据库中各数据行内容的分析而获得的。 每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别标记属性)。(分类问题数据集的表示) 分类学习方法所使用的数据集称为训练样本集合,因此分类学习又可称为监督学习(learning by example),它是在已知训练样本类别情况下,通过学习建立相应模型;而无教师监督学习则是训练样本的类别与类别个数均未知的情况下进行的。 通常分类学习所获得的模型可以表示为分类规则形式、决策树形式,或数学公式形式。 学习建模举例 例如:给定一个顾客信用信息数据库,通过学习所获得的分类规则可用于识别顾客是否是具有良好的信用等级或一般的信用等级。 数据分类步骤二:分类测试 就是利用所获得的模型进行分类操作 首先对模型分类准确率进行估计,holdout方法就是一种简单的估计方法。它利用一组带用类别的样本进行分类测试(测试样本随机获得且与训练样本相互独立)。 对于一个给定数据集所构造出模型的准确性可以通过由该模型所正确分类的(测试)数据样本个数所占总测试样本比例得到。 对于每一个测试样本,其已知的类别与学习所获模型的预测类别进行相比较。若模型的准确率是通过对学习数据集的测试所获得的,这样由于学习模型倾向于过分逼近训练数据,从而造成对模型测试准确率的估计过于乐观。 因此需要使用一个测试数据集来对学习所获模型的准确率进行测试工作。 分类测试举例 分类问题中使用的数据集是用什么形式来表示的呢? 可以将分类问题中使用的数据集表示为 X={(xi,yi)|i=1,2,…,total} 其中数据样本xi(i=1,2,…,total)用d维特征向量xi =(xi1,xi2,…,xid)来表示,xi1,xi2,…,xid分别对应d个描述属性A1, A2,…,Ad的具体取值;yi表示数据样本xi的类标号。 假设给定数据集包含m个类别,则yi∈{c1, c2,…,cm},其中c1, c2,…,cm是类别属性c的具体取值,也称为类标号,对于未知类标号的数据样本x,用d维特征向量x =(x1,x2,…,xd)来表示。 应用举例一 现有一个顾客邮件地址数据库。 利用这些邮件地址可以给潜在顾客发送用于促销的新商品宣传册和将要开始的商品打折信息。 该数据库内容就是有关顾客情况的描述,包括年龄、收入、职业和信用等级等属性描述,顾客被分类为是否会成为在本商场购买商品的顾客。 当新顾客的信息被加入到数据库中时,就需要对该顾客是否会成为电脑买家进行分类识别(即对顾客购买倾向进行分类),以决定是否给该顾客发送相应商品的宣传册。 考虑到不加区分地给每名顾客都发送这类促销宣传册显然是一种很大浪费,而相比之下,有针对性给最大的购买可能的顾客发送其所需要的商品广告才是一种高效节俭的市场营销策略。 显然为满足这种应用需求就需要建立顾客(购买倾向)分类规则模型,以帮助商家准确判别之后每个新加入顾客的可能购买倾向。 此外若需要对顾客在一年内可能会在商场购买商品的次数(为有序值)进行预测时,就需要建立预测模型以帮助准确获取每个新顾客在本商店可能进行的购买次数。 应用举例二 客户跳槽数据集 (P127表6.1) 估值 与分类的区别 与分类的描述的是离散型变量的输出不同,估值处理的是连续值
文档评论(0)