第四周聚类分析与关联规则 - ToStu.pptVIP

下载本文档

3
0
约1.55万字
约 83页
2018-05-20 发布于湖北
举报
版权申诉

第四周聚类分析与关联规则 - ToStu.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第四周聚类分析与关联规则 - ToStu

* * * * * * * * * * * * * * * * * * * 换言之，对于簇中的每个对象，求对象到其簇中心距离的平方，然后求和。为什么叫k-均值，应为每个簇的中心取簇内所有对象的均值。 * * * * * * 数据对象：中小规模数据，数值属性。高维属性会有什么结果，出来的到底是啥数据？任意形状的簇下节课再讲，是基于密度的聚类方法。 * 可伸缩性：是否可用到更大规模的数据上。处理不同属性类型的能力：比如基于距离的度量方法非常适合数值属性，但不太适合类别属性。发现任意形状的簇：基于密度的聚类，画图表示。需要确定输入参数，即簇的数目。聚类数据流： * * * * * * * * * * * * * * * * * * * * * * * 根据规则中数据的抽象层次，可以分为：单层关联规则，所有的变量都是细节数据，没有层次之分，如IBM台式机?HP打印机多层关联规则，发生关联的数据可能位于同一层次，也可能位于不同的层次。如：台式机?HP打印机。 * 根据规则中数据的抽象层次分类 * 挖掘频繁模式, 关联和相关性: 基本概念和方法基本概念频繁项集挖掘方法序列模式挖掘小结问题发现：项目的个数成指数增长：从5个项目的集合得到31个项目集合（忽略空集）关联规则挖掘过程：第一步：寻找频繁项集。根据定义，这些项集出现的频度不小于预先定义的最小额度。第二步：由频繁项集产生关联规则。根据定义，这些规则必须满足最小支持度和最小置信度。 * Apriori算法描述找出频繁项集的算法可以很简单，但代价很高简单的方法是：对出现在事务中的所有项目集进行计数。给定一个大小为m的项目集合，共有2m个子集，去掉空集，则潜在的频繁项集数为2m-1.随着项目数的增多，潜在的频繁项集数成爆炸性增长。(当m=5，为31个；但m=30，变成1073741823个) 解决问题的难点：如何高效确定所有频繁项集。大部分关联规则算法都利用巧妙的方法来减少要计数的项目集。 * Apriori算法：(1)寻找频繁项集 * 闭频繁项集和极大频繁项集解决方法: 挖掘闭频繁项集和极大频繁项集一个项集X 是闭的如果X是频繁的，且不存在真超项集 Y ? X, Y与X在D中具有相同的支持度计数。一个项集X 是极大频繁项集如果X是频繁的，且不存在超项集Y使得 Y ? X并且Y在D中是频繁的 * 练习. DB = {a1, …, a100, a1, …, a50} Min_sup = 1. 闭频繁项集是什么? a1, …, a100: 1 a1, …, a50: 2 极大频繁项集是什么? a1, …, a100: 1 闭频繁项集和极大频繁项集先验性质：如果一个项集S是频繁的(项集S的出现频度大于最小频度)，那么S的任意非空子集也是频繁的。反之，如果一个项集S的某个非空子集不是频繁的，则这个项集也不可能是频繁的。举例：如果 {beer, diaper, nuts} 是频繁的, 则{beer, diaper}也是频繁的。举例：如果一个交易包含{A、B}，则它必然也包含{A、B}的所有子集；反过来，如果{A}或{B}不是频繁项集，即{A}或{B}的出现频度小于最小频度，则{A、B}的出现频度也一定小于最小频度，因此{A、B}也不可能是频繁项集。 * Apriori算法：(1)寻找频繁项集 * Apriori 剪枝性质: 如果一个项目集是不频繁的，则不需要生成它的任何超集来作为它的候选集，因为它们也一定是不频繁的。 Apriori性质基于如下事实: 根据定义，如果项集I不满足最小支持度阈值min_sup，则I不是频繁的，即sup(I)min_sup。如果将项A添加到I，则结果项集(即I∪A)不可能比I更频繁出现。因此， I∪A也不是频繁的，即sup(I ∪A) min_sup。频繁项集的Apriori性质用于压缩搜索空间(剪枝)，以提高逐层产生频繁项集的效率。 Apriori算法：(1)寻找频繁项集 * 【思路】：先找出所有的频繁1-项集，以此为基础，由它们来产生候选的2-项集，通过观察数据(扫描数据库)来计算它们的频度，从而找出真正的频繁2-项集。以此类推，得到其它k-项集。【Apriori算法的基本思想】：它使用一种称作逐层搜索的迭代算法，通过k-项集用于探索(k+1)-项集。 Apriori算法：(1)寻找频繁项集 * 【 Apriori算法描述】：首先，通过扫描数据集，产生一个大的候选数据项集，并计算每个候选数据项C发生的次数，然后基于预先给定的最小支持度生成频繁1-项集的集合，该集合记作L1；然后基于L1和数据集中的数据，产生频繁2-项集L2；用同样的方法，直到生成频繁n-项集，其中已不再可能生成满足最小支持度的