- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
big data 数据挖掘培训1课件整理.ppt
数据挖掘 Data Mining;三、数据挖掘技术1;挖掘动机;概率论基本知识;3.1基本概念: 频繁模式与关联规则;基本概念: 频繁模式与关联规则;基本概念: 频繁模式与关联规则;;基本概念:闭项集和极大项集;关联规则挖掘—一个例子;基本概念:闭项集和极大项集;3.2 挖掘方法:Apriori 使用候选项生成频繁项集;Apriori性质、反单调性;Apriori算法思想;The Apriori Algorithm;Apriori算法怎样产生候选项?;产生候选项的例子;Apriori 算法示例;怎样产生候选项?;;课堂练习;Apriori 算法示例;;Challenges of 频繁模式挖掘;提高Apriori算法的效率;提高Apriori算法的效率;提高Apriori算法的效率;挖掘频繁模式 不需要候选集;无需候选集地挖掘频繁模式;min_support = 0.5;挖掘 FP-树的主要步骤;FP-树结构的带来的优点;FP-Growth 是否快?;FP-Growth vs. Apriori: 用支持度阈值来度量;FP-Growth vs. Tree-Projection:用支持度阈值来度量;其他方法 ;挖掘频繁闭合模式: CLOSET;CHARM: Mining by Exploring Vertical Data Format;CLOSET+: Mining Closed Itemsets by Pattern-Growth;三、数据挖掘技术;多层关联规则;多层关联规则挖掘;多层关联规则: 统一支持度 vs. 逐减支持度;一致的最小支持度;递减支持度;多层挖掘: 冗余的过滤;挖掘大型数据库中的关联规则;多维关联挖掘: 概念;挖掘多维关联规则的技术;使用量化属性的静态离散化挖掘多维关联规则;三、数据挖掘技术;感兴趣的衡量;强关联规则;强关联规则不一定有趣;支持度和置信度的不足;兴趣度衡量方法: Interest;回顾;三、数据挖掘技术1;
分类:
预测分类标号
预测:
建立连续值函数模型
典型应用;数据分类—一个两步过程;分类过程 (1):模型建立;分类过程 (2): 在预测中使用模型;分类法准确性: 估计错误概率;;Supervised vs. Unsupervised Learning;什么是预测?;
线性函数: Y = ? + ? X
多元回归: Y = b0 + b1 X1 + b2 X2.
非线性回归和其他回归模型;分类和预测的问题 (1): 数据准备;分类和预测的问题 (2):比较分类方法;分类与预测不同;三、数据挖掘技术1;3.6用决策树归纳分类;;训练数据集;输出: 概念 “buys_computer”的决策树;决策树归纳算法;划分方式,离散属性;划分方式,连续值属性;决策树归纳(创建决策树);决策树归纳(创建决策树);Hunt’s Algorithm;分裂准则;信息增益 (ID3/C4.5);;Examples for computing Entropy;;信息增益 (ID3/C4.5);训练数据集;通过信息增益选择属性;通过信息增益选择属性;用增益率gain ratio选择属性 (C4.5);用增益率gain ratio选择属性 (C4.5);Gini 指标 (CART, IBM IntelligentMiner);比较三种度量;由决策树提取分类规则;例:Web Robot检测;;模型表明;过拟合Overfitting and Tree Pruning剪枝;分类结果的表示;Visualization of a Decision Tree in SGI/MineSet 3.0;回顾
您可能关注的文档
- abc english知识内容.ppt
- ABS公共项目融资内容资料.ppt
- AB第三方物流企业发展战略课件教案.ppt
- AB项目核安全文化宣传材料课件整理.ppt
- AC-16沥青混合料配合比设计课件整理.ppt
- acb新员工综合培训——职业心态内容资料.ppt
- accahahrs心脏节律异常装置治疗指南解读朱兴雷内容资料.ppt
- ACCAHA急性心肌梗死诊断与治疗指南教学介绍.ppt
- ACCAHA急性心肌梗死诊断与治疗指南讲述说明.ppt
- Access to Care for Orphans and Vulnerable Children讲述说明.ppt
- Big Data专题报告科目讲解.pptx
- Big Feng to the Rescue课件整理.ppt
- BIM应用价值与案例3simple知识内容.ppt
- BIM简介及基于BIM下装配式框架结构施工模拟课件整理.pptx
- Biochemistry B10RNA的生物合成和加工内容资料.ppt
- Biochemistry B7.1脂和生物膜内容资料.ppt
- Biochemistry B8.2核酸的结构内容资料.ppt
- biochemistry introduction生物化学课程设计.ppt
- Biochemistry-chapter3AAandprimaryst...科目讲解.ppt
- Bioinformatics 目 录 什么是生物信息学 教学精品.ppt
文档评论(0)