数据仓库与数据挖掘技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生成候选集的例子 L3={abc, abd, acd, ace, bcd} 自连接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪: ade 不在 L3中,删除 acde C4={abcd} 第三十一页,共八十一页。 提高Apriori效率的方法 基于Hash的项集计数: 如果一个 k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。 减少交易记录: 不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集 分割: 一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。 采样: 在给定数据的子集上挖掘,使用小的支持度+完整性验证方法 动态项集计数: 在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。 第三十二页,共八十一页。 Apriori 够快了吗? — 性能瓶颈 Apriori算法的核心: 用频繁的(k – 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成 巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集 要找尺寸为100的频繁模式,如 {a1, a2, …, a100}, 你必须先产生2100 ? 1030 个候选集 多次扫描数据库: 如果最长的模式是n的话,则需要 (n +1 ) 次数据库扫描 第三十三页,共八十一页。 6.4数据挖掘的聚类算法 6.4.1 聚类分析的概念与分类 聚类分析概念 聚类分析方法的分类 类别 算法 分裂(划分)法 K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(给予选择的方法) 层次法 BIRCH算法(平衡迭代归约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型) 基于密度的方法 DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCLUE算法(密度分布函数) 基于网格的方法 STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换) 基于模型的方法 统计学方法、神经网络方法 第三十四页,共八十一页。 6.4数据挖掘的聚类算法 6.4.2 聚类分析中两个对象之间的相异度计算方法 区间标度变量计算方法 二元变量计算方法 标称型、序数型和比例标度型变量计算方法 混合类型的变量计算方法 第三十五页,共八十一页。 6.4数据挖掘的聚类算法 6.4.3 划分方法 典型的划分方法:k-平均和k-中心点 基于簇的重心技术:k-平均方法 基于有代表性的对象的技术:k-中心点方法 大型数据库中的划分方法:基于选择的K-中心点CLARANS方法 第三十六页,共八十一页。 6.4数据挖掘的聚类算法 6.4.4 层次方法 凝聚的和分裂的层次聚类 凝聚层次聚类方法AGNES 分裂层次聚类方法DIANA 利用层次方法的平衡迭代归约和聚类 综合的层次聚类方法 BIRCH 利用代表点聚类 一种新颖的层次聚类算法 CURE 一个利用动态模型的层次聚类算法 动态模型的聚类法 chameleon (变色龙) 第三十七页,共八十一页。 6.4数据挖掘的聚类算法 6.4.5 基于密度的方法 一个基于高密度连接区域的聚类方法 DBSCAN 聚类方法 通过对象排序识别聚类结构 OPTICS聚类分析方法 基于密度分布函数的聚类 基于一组密度分布函数的聚类算法 DENCLUE 第三十八页,共八十一页。 6.4数据挖掘的聚类算法 6.4.6 基于网格的方法 统计信息网络 STING是一种基于网格的多分辨率聚类技术 聚类高维空间 CLIQUE(clustering in quest, CLIQUE)聚类算法 6.4.7 基于模型的聚类方法 增量概念聚类算法 COBWEB 6.4.8 模糊聚类算法 第三十九页,共八十一页。 6.5 数据挖掘的统计分析算法 6.5.1 辨别方法 6.5.2 回归模型 6.5.3 优点与缺点 第四十页,共八十一页。 6.6 数据挖掘的品种优化算法 6.6.1 品种优化 6.6.2 品种优化算法 第四十一页,共八十一页。 6.7数据挖掘的进化算法 6.7.1 遗传算法 如何工作 优缺点 6.7.2 神经网络算法 如何工作 无指导的学习 竞争学习 自组织特征映射模型 优缺点 第四十二页,共八十一页。 6.7数据挖掘的进化算法 神经网络模型 性别 区域 职位 B类客户 年龄 交易额 受教育的年限 图6.10 神经网络模型 C类客户 跳槽客户 隐节点 隐节

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档