第12章数据挖掘应用Chapter12ApplicationsofDataMining.ppt

下载文档 降价啦

0
0
约2.91千字
约 185页
2019-03-21 发布于天津
举报
版权申诉
保障服务

第12章数据挖掘应用Chapter12ApplicationsofDataMining.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第12章数据挖掘应用Chapter 12 Applications of Data Mining;目录;关联规则挖掘;关联规则简介;什么是关联规则挖掘;频繁模式挖掘的重要性;关联规则基本模型;关联规则基本模型 ;关联规则基本模型（续）;关联规则基本模型（续）;规则度量：支持度与可信度;关联规则基本模型（续）;Let min_support = 50%, min_conf = 50%: A ? C (50%, 66.7%) C ? A (50%, 100%);For rule A ? C: support = support({A}?{C}) = 50% confidence = support({A}?{C})/support({A}) = 66.6%;Apriori算法的步骤;频繁项集;关联规则的性质： ;Apriori算法;实例;Visualization of Association Rules: Pane Graph;Visualization of Association Rules: Rule Graph;提高Apriori算法的方法;关联规则挖掘算法;用Frequent-Pattern tree (FP-tree) 结构压缩数据库, 高度浓缩，同时对频繁集的挖掘又完备的避免代价较高的数据库扫描开发一种高效的基于FP-tree的频繁集挖掘算法采用分而治之的方法学：分解数据挖掘任务为小任务避免生成关联规则: 只使用部分数据库!;{};完备: 不会打破交易中的任何模式包含了频繁模式挖掘所需的全部信息紧密去除不相关信息—不包含非频繁项支持度降序排列: 支持度高的项在FP-tree中共享的机会也高决不会比原数据库大（如果不计算树节点的额外开销) 例子: 对于 Connect-4 数据库,压缩率超过 100;基本思想 (分而治之) 用FP-tree地归增长频繁集方法对每个项，生成它的条件模式库, 然后是它的条件 FP-tree 对每个新生成的条件FP-tree，重复这个步骤直到结果FP-tree为空, 或只含维一的一个路径 (此路径的每个子路径对应的项集都是频繁集);为FP-tree中的每个节点生成条件模式库用条件模式库构造对应的条件FP-tree 递归构造条件 FP-trees 同时增长其包含的频繁集如果条件FP-tree只包含一个路径，则直接生成所包含的频繁集。;从FP-tree的头表开始按照每个频繁项的连接遍历 FP-tree 列出能够到达此项的所有前缀路径，得到条件模式库;节点裢接任何包含ai, 的可能频繁集，都可以从FP-tree头表中的ai沿着ai 的节点链接得到前缀路径要计算路径P 中包含节点ai 的频繁集，只要考察到达ai 的路径前缀即可，且其支持度等于节点ai 的支持度;对每个模式库计算库???每个项的支持度用模式库中的频繁项建立FP-tree;Empty;{};关联规则价值衡量与发展;规则价值衡量 ;系统客观层面 ;用户主观层面 ;关联规则新进展 ;关联规则新进展（续）;关联规则新进展（续）;关联规则新进展（续）;关联规则新进展（续）;关联规则新进展（续）;聚类分析;聚类（Clustering）分析简介;聚类分析简介（续） ;聚类分析简介（续）;聚类分析简介（续）;聚类分析简介（续） ;聚类的常规应用 ;应用聚类分析的例子;什么是一个好的聚类方法?;聚类分析中的数据类型;数据矩阵（Data Matrix） ;相异度矩阵（Dissimilarity Matrix） ;评价聚类质量;聚类分析中的数据类型;对象间距离的计算;划分方法简介;k-均值算法 ;k-均值算法 ;K-均值算法 ;层次聚类;凝聚的和分裂的层次聚类 ;凝聚的和分裂的层次聚类 ;层次聚类方法的优缺点;分类与预测;简介;分类;训练集与测试集;分类的两个阶段;分类模型的构造方法;预测;评估分类和预测方法的五条标准;决策树;决策树学习简介;决策树实例;决策树学习的算法 ;Web 挖掘;目录;Web Mining简介;产生原因;应用;Web 挖掘分类;Web内容挖掘;Web内容挖掘（续）;Web结构挖掘;Web结构挖掘（续）;Web日志挖掘;Web日志挖掘（续）;Web日志挖掘（续）;;Web挖掘过程;Web日志挖掘;服务器日志;数据???型;Web 日志挖掘应用;Web日志挖掘过程;;;Web日志挖掘过程;数据预处理;;数据清理;清理后的Sample Log;用户对话识别;用户对话识别（续）;用户对话识别;页面视图识别;路径补全;数据挖掘;统计分析;频繁项集和关联规则;包括两方面的应用： *user 用于Market segmentation(市场分割)和个人内容定制