数据仓库与数据挖掘技术教案PPT(6-10章).pptVIP

数据仓库与数据挖掘技术教案PPT(6-10章).ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘技术教案PPT(6-10章).ppt

第6章 数据挖掘基本算法 本章内容: 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 6.1 分类规则挖掘 6.1.1分类与估值 1 分类 为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程 。 应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等 实践应用参照课本 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1.1分类与估值 4 评估分类方法 要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1.3 贝叶斯分类 2.贝叶斯定理与朴素贝叶斯分类 贝叶斯定理: P(H|X)=P(X|H)P(H)/P(X) 其中,P(H|X)表示条件X下H的概率,也称为条件概率或称为后验概率(posteriori probabilities)。 朴素贝叶斯分类: 假定有m个类C1, … Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当 P(Ci|X) P(Cj|X), 6.2预测分析与趋势分析规则 6.2.1 预言的基本方法 预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。 预测的基本步骤: 确定预测目标,包括预测对象、目的、对象范围; 收集分析内部和外部资料; 数据的处理及模型的选择; 预测模型的分析、修正; 确定预测值。 6.2 预测分析与趋势分析规则 6.2.2 定量分析预测 时间序列法 回归预测 非线性模型 灰色预测模型GM(1,1) 组合预测 6.2 预测分析与趋势分析规则 6.2.3预测的结果分析 预测的结果分析要考虑到的因素: 相反的预测结果 胜出裕度 成本收益分析 6.2 预测分析与趋势分析规则 6.2.4 趋势分析挖掘 分析时间序列数据需要注意以下方面 : 长时间的走向 周期的走向与周期的变化 季节性的走向与变化 不规则的随机走向 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 1.关联规则的概念 定义1 设I={i1、i2、i3,…,im}是由m个不同的数据项目组成的集合,其中的元素称为项(item),项的集合称为项集,包含k个项的项集称为k项集,给定一个事务(交易)D,即交易数据库,其中的每一个事务(交易)T是数据项I的一个子集,即,T有一个惟一的标积符TID;当且仅当时,称交易T包含项集X;那么关联规则就形如“X=Y”的蕴涵式;其中,,,Ф,即表示满足X中条件的记录也一定满足Y。关联规则X=Y在交易数据库中成立, 具有支持度s和具有置信度c 。 这也就是交易数据集D中具有支持度s,即D中至少有s%的事务包含,描述 为:support(X=Y)= 比如Support(X=Y )=同时购买商品X和Y的交易数?总交易数 同时交易数据集D中具有置信度c,即D中包含X的事务至少有c%同时也包含Y,描述为:confidence(X=Y)= 比如购买了商品X,同时购买商品Y可信度,confidence(X=Y)=同时购买商品X和Y的交易数?购买了商品X的交易数 一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则(strong)。一般将最小支持度简记为minsup和最小置信度简记为minconf。 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 2 关联规则的分类 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则) 1.简单形式的关联规则的核心算法 找到所有支持度大于最小支持度的项集,即频集,有k个数据频集称为k项频集.找出所有的频集由apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。 使用第1步找到的频集产生期望的规则 apriori算法的详细介绍见课本。 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档