数据仓库与数据挖掘技术.pptVIP

下载本文档

3
0
约1.02万字
约 81页
2023-06-19 发布于重庆
举报
版权申诉

数据仓库与数据挖掘技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生成候选集的例子 L3={abc, abd, acd, ace, bcd} 自连接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪: ade 不在 L3中，删除 acde C4={abcd} 第三十一页，共八十一页。提高Apriori效率的方法基于Hash的项集计数: 如果一个 k-项集在hash-tree的路径上的一个计数值低于阈值，那他本身也不可能是频繁的。减少交易记录: 不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集分割: 一个项集要想在整个数据库中是频繁的，那么他至少在数据库的一个分割上是频繁的。采样: 在给定数据的子集上挖掘，使用小的支持度+完整性验证方法动态项集计数: 在添加一个新的候选集之前，先估计一下是不是他的所有子集都是频繁的。第三十二页，共八十一页。 Apriori 够快了吗? — 性能瓶颈 Apriori算法的核心: 用频繁的(k – 1)-项集生成候选的频繁 k-项集用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集要找尺寸为100的频繁模式，如 {a1, a2, …, a100}, 你必须先产生2100 ? 1030 个候选集多次扫描数据库：如果最长的模式是n的话，则需要 (n +1 ) 次数据库扫描第三十三页，共八十一页。 6.4数据挖掘的聚类算法 6.4.1 聚类分析的概念与分类聚类分析概念聚类分析方法的分类类别算法分裂（划分）法 K-MEANS算法（K-平均）、K-MEDOIDS算法（K-中心点）、CLARANS算法（给予选择的方法）层次法 BIRCH算法（平衡迭代归约和聚类）、CURE算法（代表聚类）、CHAMELEON算法（动态模型）基于密度的方法 DBSCAN算法（基于高密度连接区域）、OPTICS算法（对象排序识别）、DENCLUE算法（密度分布函数）基于网格的方法 STING算法（统计信息网格）、CLIQUE算法（聚类高维空间）、WAVE-CLUSTER算法（小波变换）基于模型的方法统计学方法、神经网络方法第三十四页，共八十一页。 6.4数据挖掘的聚类算法 6.4.2 聚类分析中两个对象之间的相异度计算方法区间标度变量计算方法二元变量计算方法标称型、序数型和比例标度型变量计算方法混合类型的变量计算方法第三十五页，共八十一页。 6.4数据挖掘的聚类算法 6.4.3 划分方法典型的划分方法：k-平均和k-中心点基于簇的重心技术：k-平均方法基于有代表性的对象的技术：k-中心点方法大型数据库中的划分方法：基于选择的K-中心点CLARANS方法第三十六页，共八十一页。 6.4数据挖掘的聚类算法 6.4.4 层次方法凝聚的和分裂的层次聚类凝聚层次聚类方法AGNES 分裂层次聚类方法DIANA 利用层次方法的平衡迭代归约和聚类综合的层次聚类方法 BIRCH 利用代表点聚类一种新颖的层次聚类算法 CURE 一个利用动态模型的层次聚类算法动态模型的聚类法 chameleon (变色龙) 第三十七页，共八十一页。 6.4数据挖掘的聚类算法 6.4.5 基于密度的方法一个基于高密度连接区域的聚类方法 DBSCAN 聚类方法通过对象排序识别聚类结构 OPTICS聚类分析方法基于密度分布函数的聚类基于一组密度分布函数的聚类算法 DENCLUE 第三十八页，共八十一页。 6.4数据挖掘的聚类算法 6.4.6 基于网格的方法统计信息网络 STING是一种基于网格的多分辨率聚类技术聚类高维空间 CLIQUE（clustering in quest, CLIQUE）聚类算法 6.4.7 基于模型的聚类方法增量概念聚类算法 COBWEB 6.4.8 模糊聚类算法第三十九页，共八十一页。 6.5 数据挖掘的统计分析算法 6.5.1 辨别方法 6.5.2 回归模型 6.5.3 优点与缺点第四十页，共八十一页。 6.6 数据挖掘的品种优化算法 6.6.1 品种优化 6.6.2 品种优化算法第四十一页，共八十一页。 6.7数据挖掘的进化算法 6.7.1 遗传算法如何工作优缺点 6.7.2 神经网络算法如何工作无指导的学习竞争学习自组织特征映射模型优缺点第四十二页，共八十一页。 6.7数据挖掘的进化算法神经网络模型性别区域职位 B类客户年龄交易额受教育的年限图6.10 神经网络模型 C类客户跳槽客户隐节点隐节