- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四周聚类分析与关联规则 - ToStu
* * * * * * * * * * * * * * * * * * * 换言之,对于簇中的每个对象,求对象到其簇中心距离的平方,然后求和。为什么叫k-均值,应为每个簇的中心取簇内所有对象的均值。 * * * * * * 数据对象:中小规模数据,数值属性。高维属性会有什么结果,出来的到底是啥数据?任意形状的簇下节课再讲,是基于密度的聚类方法。 * 可伸缩性:是否可用到更大规模的数据上。 处理不同属性类型的能力:比如基于距离的度量方法非常适合数值属性,但不太适合类别属性。 发现任意形状的簇:基于密度的聚类,画图表示。 需要确定输入参数,即簇的数目。 聚类数据流: * * * * * * * * * * * * * * * * * * * * * * * 根据规则中数据的抽象层次,可以分为: 单层关联规则,所有的变量都是细节数据,没有层次之分,如IBM台式机?HP打印机 多层关联规则,发生关联的数据可能位于同一层次,也可能位于不同的层次。如:台式机?HP打印机。 * 根据规则中数据的抽象层次分类 * 挖掘频繁模式, 关联和相关性: 基本概念和方法 基本概念 频繁项集挖掘方法 序列模式挖掘 小结 问题发现:项目的个数成指数增长:从5个项目的集合得到31个项目集合(忽略空集) 关联规则挖掘过程: 第一步:寻找频繁项集。根据定义,这些项集出现的频度不小于预先定义的最小额度。 第二步:由频繁项集产生关联规则。根据定义,这些规则必须满足最小支持度和最小置信度。 * Apriori算法描述 找出频繁项集的算法可以很简单,但代价很高 简单的方法是:对出现在事务中的所有项目集进行计数。 给定一个大小为m的项目集合,共有2m个子集,去掉空集,则潜在的频繁项集数为2m-1.随着项目数的增多,潜在的频繁项集数成爆炸性增长。(当m=5,为31个;但m=30,变成1073741823个) 解决问题的难点:如何高效确定所有频繁项集。 大部分关联规则算法都利用巧妙的方法来减少要计数的项目集。 * Apriori算法:(1)寻找频繁项集 * 闭频繁项集和极大频繁项集 解决方法: 挖掘闭频繁项集和极大频繁项集 一个项集X 是闭的 如果X是频繁的,且不存在真超项集 Y ? X, Y与X在D中具有相同的支持度计数。 一个项集X 是极大频繁项集 如果X是频繁的,且不存在超项集Y使得 Y ? X并且Y在D中是频繁的 * 练习. DB = {a1, …, a100, a1, …, a50} Min_sup = 1. 闭频繁项集是什么? a1, …, a100: 1 a1, …, a50: 2 极大频繁项集是什么? a1, …, a100: 1 闭频繁项集和极大频繁项集 先验性质:如果一个项集S是频繁的(项集S的出现频度大于最小频度),那么S的任意非空子集也是频繁的。反之,如果一个项集S的某个非空子集不是频繁的,则这个项集也不可能是频繁的。 举例:如果 {beer, diaper, nuts} 是频繁的, 则{beer, diaper}也是频繁的。 举例:如果一个交易包含{A、B},则它必然也包含{A、B}的所有子集;反过来,如果{A}或{B}不是频繁项集,即{A}或{B}的出现频度小于最小频度,则{A、B}的出现频度也一定小于最小频度,因此{A、B}也不可能是频繁项集。 * Apriori算法:(1)寻找频繁项集 * Apriori 剪枝性质: 如果一个项目集是不频繁的,则不需要生成它的任何超集来作为它的候选集,因为它们也一定是不频繁的。 Apriori性质基于如下事实: 根据定义,如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即sup(I)min_sup。如果将项A添加到I,则结果项集(即I∪A)不可能比I更频繁出现。因此, I∪A也不是频繁的,即sup(I ∪A) min_sup。 频繁项集的Apriori性质用于压缩搜索空间(剪枝),以提高逐层产生频繁项集的效率。 Apriori算法:(1)寻找频繁项集 * 【思路】:先找出所有的频繁1-项集,以此为基础,由它们来产生候选的2-项集,通过观察数据(扫描数据库)来计算它们的频度,从而找出真正的频繁2-项集。以此类推,得到其它k-项集。 【Apriori算法的基本思想】:它使用一种称作逐层搜索的迭代算法,通过k-项集用于探索(k+1)-项集。 Apriori算法:(1)寻找频繁项集 * 【 Apriori算法描述】: 首先,通过扫描数据集,产生一个大的候选数据项集,并计算每个候选数据项C发生的次数,然后基于预先给定的最小支持度生成频繁1-项集的集合,该集合记作L1; 然后基于L1和数据集中的数据,产生频繁2-项集L2; 用同样的方法,直到生成频繁n-项集,其中已不再可能生成满足最小支持度的
您可能关注的文档
最近下载
- [职高 对口升学 8套] 2024年重庆高职分类考试 电子技术类 综合理论测试 考前冲刺模拟卷(含答案).pdf VIP
- 工作考勤每日签到表的模板.doc VIP
- 2023-2024学年贵州黔东南九年级数学第一学期期末水平检测试卷.docx VIP
- 上海市六年级上册期末测试道德与法治试卷.pdf VIP
- 2025年冷链物流数字化供应链智能化应用报告.docx VIP
- 2026天津市及各区卫健委招聘历年题库信息汇总最新.docx VIP
- WM-S8-002 -1.4_人机界面标准.pdf VIP
- 重庆三峡学院2020-2021学年度《生物化学》期末考试试卷含标准答案.docx
- 最新版啤酒酿造废水处理项目可行性研究报告.pdf VIP
- 数学作业纸模板.doc VIP
原创力文档


文档评论(0)