big data 数据挖掘培训1课件整理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
big data 数据挖掘培训1课件整理.ppt

数据挖掘 Data Mining;三、数据挖掘技术1;挖掘动机;概率论基本知识;3.1基本概念: 频繁模式与关联规则;基本概念: 频繁模式与关联规则;基本概念: 频繁模式与关联规则;;基本概念:闭项集和极大项集;关联规则挖掘—一个例子;基本概念:闭项集和极大项集;3.2 挖掘方法:Apriori 使用候选项生成频繁项集;Apriori性质、反单调性;Apriori算法思想;The Apriori Algorithm;Apriori算法怎样产生候选项?;产生候选项的例子;Apriori 算法示例;怎样产生候选项?;;课堂练习;Apriori 算法示例;;Challenges of 频繁模式挖掘;提高Apriori算法的效率;提高Apriori算法的效率;提高Apriori算法的效率;挖掘频繁模式 不需要候选集;无需候选集地挖掘频繁模式;min_support = 0.5;挖掘 FP-树的主要步骤;FP-树结构的带来的优点;FP-Growth 是否快?;FP-Growth vs. Apriori: 用支持度阈值来度量;FP-Growth vs. Tree-Projection:用支持度阈值来度量;其他方法 ;挖掘频繁闭合模式: CLOSET;CHARM: Mining by Exploring Vertical Data Format;CLOSET+: Mining Closed Itemsets by Pattern-Growth;三、数据挖掘技术;多层关联规则;多层关联规则挖掘;多层关联规则: 统一支持度 vs. 逐减支持度;一致的最小支持度;递减支持度;多层挖掘: 冗余的过滤;挖掘大型数据库中的关联规则;多维关联挖掘: 概念;挖掘多维关联规则的技术;使用量化属性的静态离散化挖掘多维关联规则;三、数据挖掘技术;感兴趣的衡量;强关联规则;强关联规则不一定有趣;支持度和置信度的不足;兴趣度衡量方法: Interest;回顾;三、数据挖掘技术1; 分类: 预测分类标号 预测: 建立连续值函数模型 典型应用;数据分类—一个两步过程;分类过程 (1):模型建立;分类过程 (2): 在预测中使用模型;分类法准确性: 估计错误概率;;Supervised vs. Unsupervised Learning;什么是预测?; 线性函数: Y = ? + ? X 多元回归: Y = b0 + b1 X1 + b2 X2. 非线性回归和其他回归模型;分类和预测的问题 (1): 数据准备;分类和预测的问题 (2):比较分类方法;分类与预测不同;三、数据挖掘技术1;3.6用决策树归纳分类;;训练数据集;输出: 概念 “buys_computer”的决策树;决策树归纳算法;划分方式,离散属性;划分方式,连续值属性;决策树归纳(创建决策树);决策树归纳(创建决策树);Hunt’s Algorithm;分裂准则;信息增益 (ID3/C4.5);;Examples for computing Entropy;;信息增益 (ID3/C4.5);训练数据集;通过信息增益选择属性;通过信息增益选择属性;用增益率gain ratio选择属性 (C4.5);用增益率gain ratio选择属性 (C4.5);Gini 指标 (CART, IBM IntelligentMiner);比较三种度量;由决策树提取分类规则;例:Web Robot检测;;模型表明;过拟合Overfitting and Tree Pruning剪枝;分类结果的表示;Visualization of a Decision Tree in SGI/MineSet 3.0;回顾

文档评论(0)

youngyu0301 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档