第12章数据挖掘应用Chapter12ApplicationsofDataMining.ppt

第12章数据挖掘应用Chapter12ApplicationsofDataMining.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第12章数据挖掘应用Chapter12ApplicationsofDataMining.ppt

第12章 数据挖掘应用 Chapter 12 Applications of Data Mining ;目录;关联规则挖掘;关联规则简介;什么是关联规则挖掘;频繁模式挖掘的重要性;关联规则基本模型;关联规则基本模型 ;关联规则基本模型(续);关联规则基本模型(续);规则度量:支持度与可信度;关联规则基本模型(续);Let min_support = 50%, min_conf = 50%: A ? C (50%, 66.7%) C ? A (50%, 100%);For rule A ? C: support = support({A}?{C}) = 50% confidence = support({A}?{C})/support({A}) = 66.6%;Apriori算法的步骤;频繁项集;关联规则的性质: ;Apriori算法;实例;Visualization of Association Rules: Pane Graph;Visualization of Association Rules: Rule Graph;提高Apriori算法的方法;关联规则挖掘算法;用Frequent-Pattern tree (FP-tree) 结构压缩数据库, 高度浓缩,同时对频繁集的挖掘又完备的 避免代价较高的数据库扫描 开发一种高效的基于FP-tree的频繁集挖掘算法 采用分而治之的方法学:分解数据挖掘任务为小任务 避免生成关联规则: 只使用部分数据库!;{};完备: 不会打破交易中的任何模式 包含了频繁模式挖掘所需的全部信息 紧密 去除不相关信息—不包含非频繁项 支持度降序排列: 支持度高的项在FP-tree中共享的机会也高 决不会比原数据库大(如果不计算树节点的额外开销) 例子: 对于 Connect-4 数据库,压缩率超过 100;基本思想 (分而治之) 用FP-tree地归增长频繁集 方法 对每个项,生成它的 条件模式库, 然后是它的 条件 FP-tree 对每个新生成的条件FP-tree,重复这个步骤 直到结果FP-tree为空, 或只含维一的一个路径 (此路径的每个子路径对应的项集都是频繁集);为FP-tree中的每个节点生成条件模式库 用条件模式库构造对应的条件FP-tree 递归构造条件 FP-trees 同时增长其包含的频繁集 如果条件FP-tree只包含一个路径,则直接生成所包含的频繁集。;从FP-tree的头表开始 按照每个频繁项的连接遍历 FP-tree 列出能够到达此项的所有前缀路径,得到条件模式库;节点裢接 任何包含ai, 的可能频繁集,都可以从FP-tree头表中的ai沿着ai 的节点链接得到 前缀路径 要计算路径P 中包含节点ai 的频繁集,只要考察到达ai 的路径前缀即可,且其支持度等于节点ai 的支持度;对每个模式库 计算库???每个项的支持度 用模式库中的频繁项建立FP-tree;Empty;{};关联规则价值衡量与发展;规则价值衡量 ;系统客观层面 ;用户主观层面 ;关联规则新进展 ;关联规则新进展(续);关联规则新进展(续);关联规则新进展(续);关联规则新进展(续);关联规则新进展(续);聚类分析;聚类(Clustering)分析简介;聚类分析简介(续) ;聚类分析简介 (续);聚类分析简介 (续);聚类分析简介(续) ;聚类的常规应用 ;应用聚类分析的例子;什么是一个好的聚类方法?;聚类分析中的数据类型;数据矩阵(Data Matrix) ;相异度矩阵(Dissimilarity Matrix) ;评价聚类质量;聚类分析中的数据类型;对象间距离的计算;划分方法简介;k-均值算法 ;k-均值算法 ;K-均值算法 ;层次聚类;凝聚的和分裂的层次聚类 ;凝聚的和分裂的层次聚类 ;层次聚类方法的优缺点;分类与预测;简介;分类;训练集与测试集;分类的两个阶段;分类模型的构造方法;预测;评估分类和预测方法的五条标准;决策树;决策树学习简介;决策树实例;决策树学习的算法 ;Web 挖掘;目录;Web Mining简介;产生原因;应用;Web 挖掘分类;Web内容挖掘;Web内容挖掘(续);Web结构挖掘;Web结构挖掘(续);Web日志挖掘;Web日志挖掘(续);Web日志挖掘(续);;Web挖掘过程;Web日志挖掘;服务器日志;数据???型;Web 日志挖掘应用;Web日志挖掘过程;;;Web日志挖掘过程;数据预处理;;数据清理;清理后的Sample Log;用户对话识别;用户对话识别(续);用户对话识别;页面视图识别;路径补全;数据挖掘;统计分析;频繁项集和关联规则;包括两方面的应用: *user 用于Market segmentation(市场分割)和个人内容定制

您可能关注的文档

文档评论(0)

107****0911 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档