数据挖掘(DM).pptVIP

下载本文档

27
0
约8.57千字
约 10页
2018-05-13 发布于四川
举报
版权申诉

数据挖掘(DM).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Data mining Business Intelligence 数据挖掘与商务智能课程内容 2 数据挖掘具体方法基本概念：关联规则挖掘关联规则：关联规则是形如X-Y的蕴涵表达式，其中X和Y是不相交的项集，即。关联规则挖掘：从一个数据集中发现关联规则，该规则显示了给定数据集中经常一起出现的属性值条件元组。实例通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。例如，在同一次购物中，如果顾客购买牛奶的同时，也购买面包（和什么类型的面包）的可能性有多大？这种信息可以引导销售，可以帮助零售商有选择地经销和安排货架。例如，将牛奶和面包尽可能放近一些，可以进一步引导客户在商店里同时购买这些商品。一些基本定义项集一个或多个项的集合如: {Milk, Bread, Diaper} k-项集包含有k个子项的项集支持度计数 (?) 一个项集在事务集中出现的频率 E.g. ?({Milk, Bread,Diaper}) = 2 支持度包含某个项集的事务数量比例 E.g. s({Milk, Bread, Diaper}) = 2/5 频繁项集支持度高于或等于阈值minsup的项集一些基本定义怎样进行关联规则挖掘给定事务集T, 关联规则挖掘的任务就是寻找满足以下条件的关联规则。支持度 ≥ minsup threshold 置信度 ≥ minconf threshold 一种“原始野蛮”的方法: 列出所有的规则分别计算每条规则的置信度和支持度剔除未达到 minsup阈值和 minconf阈值的规则 ? Computationally prohibitive! 怎样进行关联规则挖掘怎样进行关联规则挖掘采用“两步走”的方法: 先产生频繁项集即找出 support ? minsup的所有项集生成规则从频繁项集中产生具有高置信度的规则，每条规则本质上其实就是频繁项集的一个划分。产生频繁项集的过程运算量仍然是非常大的！怎样进行关联规则挖掘原始的方法: 列出所有可能项集（如右图），即候选的频繁项集扫描事务数据库（左图），计算每个候选项集的支持度。将每个事务与候选项集相匹配，生成关联规则。算法复杂度 ~ O(NMw) = Expensive since M = 2d !!! 算法复杂度给定 d 个事务项: 项集的总数= 2d 可以生成的规则总数是: 如何降低产生频繁项集的计算复杂度减少候选项集的数目 (M) 完全的搜索: M=2d 可以采用一些剪枝的方法减少 M 减少比较次数 (NM) 可以使用更高级的数据结构存储事务或候选项集（Hash Tree）有些事务和候选项集并不一定需要进行比较。减少事务数目 (N) 减少候选项集的策略先验原理: 如果一个项集是频繁的，则它的所有子集也一定是频繁的。即：先验原理成立是因为支持度具有以下特性: 一个项集的支持度决不会超过其子集的支持度。这个性质也称为支持度度量的反单调性。先验原理应用示例(续…) Apriori算法(频繁项集的生成） Method: Let k=1 产生长度为1的频繁项集重复以下过程直到没有新的频繁项集产生从k 个频繁项集中生成长度为k+1的候选项集对包含非频繁、且长度为k的子集的候选项集进行剪枝。扫描数据库，统计每个候选项集的支持度剔除非频繁项集，保留频繁项集 Apriori算法(规则的生成）给定频繁项集L, 找到所有的非空子集f ? L 使得规则 f ? L – f 可以满足最小置信度的要求如果{A,B,C,D}是一个频繁项集,则候选规则有: ABC ?D, ABD ?C, ACD ?B, BCD ?A, A ?BCD, B ?ACD, C ?ABD, D ?ABCAB ?CD, AC ? BD, AD ? BC, BC ?AD, BD ?AC, CD ?AB, 如果|L| = k,将有2k – 2个候选的关联规则(因为忽略了 L??和??L) Apriori算法(规则的生成）怎样从频繁项集中高效的生成规则？一般而言,置信度并不具有单调性（这与支持度度量是不同的）例如：c(ABC?D) can be larger or smaller than c(AB ?D) 但如果是由同一个候选项集产生的规则则具有单调性如， L = {A,B,C,D}: c(ABC ? D) ? c(AB ? CD) ? c(A ? BCD) 因为当时，显然 Apr