第八篇数据开采.pptVIP

下载本文档

0
0
约8.69千字
约 36页
2017-05-26 发布于北京
举报
版权申诉

第八篇数据开采.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

/// 1.2 知识发现和数据挖掘概念知识发现（KDD）被认为是从数据中发现有用知识的整个过程。数据挖掘（DM）被认为是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式（patterns）。 KDD过程定义（Fayyad，Piatetsky-Shapiror， and Smyth 1996）：从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。 “模式”可以看成是知识的雏形，经过验证、完善后形成知识。第八章数据挖掘 3.3 层次法三、聚类分析代表点的产生与收缩： CURE 第八章数据挖掘 3.4 基于密度的方法——DBSCAN 三、聚类分析算法思想：算法将具有足够高密度的区域划分为簇，并可以在带有“噪声”的数据库中发现任意形状的聚类。它定义簇为密度相连的点的最大集合。有关定义：核心对象：如果一个对象的EPS邻域至少包含了MinPts个对象，则称该对象为核心对象。直接密度可达：给定一个对象集合D，如果p在q的EPS邻域内，而q是一个核心对象，则称p从对象q出发是直接密度可达的。密度可达：如果存在一个对象链p1,p2,…,pn, p1=q, pn=p,对pi∈D，（1≤i≤n），pi+1是从pi关于EPS和MinPts直接密度可达的，则对象p是从对象q关于EPS和MinPts密度可达的。密度相连：如果对象集合D中存在一个对象o，使得对象p、q是从o关于EPS和MinPts密度可达的，那么对象p，q是关于EPS和MinPts密度相连的。第八章数据挖掘 3.4 基于密度的方法——DBSCAN 三、聚类分析基于密度的簇：基于密度可达性的最大的密度相连对象的集合 DBSCAN的原理如下：检查数据库中每个点的EPS邻域，如果一个点p的EPS邻域包含多于MinPts个点，则创建一个以p为核心的新簇。然后，反复寻找从核心对象直接密度可达的对象，这个过程还涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时，该过程结束。第八章数据挖掘 3.4 基于密度的方法——DBSCAN 三、聚类分析参数设置接受用户给定的EPS和MinPts的设置值查找核心对象根据EPS和MinPts的设置值，扫描数据库，找出所有核心对象，建立初始簇群簇的扩展与合并根据直接密度可达性扩展和合并簇筛除噪声把不属于任何簇的对象标识为噪声第八章数据挖掘四、关联分析 4.1 基本概念设I={i1, i2,…, im}是项的集合——项集。记D为交易T的集合，这里交易T是项的集合，并且T? I 。对应每一个交易有唯一的标识，如交易号，记作TID。设X是一个项的集合，如果X?T，那么称交易T包含X。一个关联规则是形如X?Y的蕴涵式，这里X? I, Y? I，并且X?Y=?。规则X?Y在交易数据库D中的支持度（support）是交易集中包含X或Y的交易数与所有交易数之比，记为support(X?Y)，即 support(X?Y)=|{T:X?Y?T，T?D}| / |D| 规则X?Y在交易集中的可信度（confidence）是指包含X和Y的交易数与包含X的交易数之比，记为confidence(X?Y)，即 confidence(X?Y)=|{T: X?Y?T，T?D}| / |{T:X?T，T?D}| 给定一个交易集D，挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。第八章数据挖掘四、关联分析 4.1 基本概念强规则：同时满足最小支持度和最小可信度的规则。包含K个项的项集称为K-项集。项集的出现频率是包含项集的事务数。频集（频繁项集）：项集的出现频率大于或等于最小支持度与D中事务总数的乘积。基于两阶段频集思想的方法，将关联规则挖掘算法的设计可以分解为两个子问题： 1)? 找到所有支持度大于最小支持度的项集（Itemset），这些项集称为频集（Frequent Itemset)。 2)? 使用第1步找到的频集产生期望的规则。模式：对于集合F中的数据，可以用语言L来描述其中数据的特性。关联：“在无力偿还贷款的人当中，60%的人月收入在3000以下。” 人们所掌握的关于对象系统的信息，只能是宿信息。他决定与对象系统本身所固有的源信息和信道的传播过程，既摇受到系统本身能力的限制，又摇受到信道的影响，同时还受接受系统能力的制约。条件概率：P(ui /vj )=P(vj ui )/P(vj ) 全概率：P(vj )= ∑P(vj/ ui )/P(ui ) 贝叶斯公式（

您可能关注的文档

文档评论（0）

xuefei111 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第八篇数据开采.pptVIP