big data 数据挖掘培训1课件整理.ppt

下载文档 降价啦

0
0
约1.54千字
约 103页
2019-03-30 发布于天津
举报
版权申诉
保障服务

big data 数据挖掘培训1课件整理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘 Data Mining;三、数据挖掘技术1;挖掘动机;概率论基本知识;3.1基本概念: 频繁模式与关联规则;基本概念: 频繁模式与关联规则;基本概念: 频繁模式与关联规则;;基本概念：闭项集和极大项集;关联规则挖掘—一个例子;基本概念：闭项集和极大项集;3.2 挖掘方法：Apriori 使用候选项生成频繁项集;Apriori性质、反单调性;Apriori算法思想;The Apriori Algorithm;Apriori算法怎样产生候选项?;产生候选项的例子;Apriori 算法示例;怎样产生候选项?;;课堂练习;Apriori 算法示例;;Challenges of 频繁模式挖掘;提高Apriori算法的效率;提高Apriori算法的效率;提高Apriori算法的效率;挖掘频繁模式不需要候选集;无需候选集地挖掘频繁模式;min_support = 0.5;挖掘 FP-树的主要步骤;FP-树结构的带来的优点;FP-Growth 是否快？;FP-Growth vs. Apriori: 用支持度阈值来度量;FP-Growth vs. Tree-Projection:用支持度阈值来度量;其他方法 ;挖掘频繁闭合模式: CLOSET;CHARM: Mining by Exploring Vertical Data Format;CLOSET+: Mining Closed Itemsets by Pattern-Growth;三、数据挖掘技术;多层关联规则;多层关联规则挖掘;多层关联规则: 统一支持度 vs. 逐减支持度;一致的最小支持度;递减支持度;多层挖掘: 冗余的过滤;挖掘大型数据库中的关联规则;多维关联挖掘: 概念;挖掘多维关联规则的技术;使用量化属性的静态离散化挖掘多维关联规则;三、数据挖掘技术;感兴趣的衡量;强关联规则;强关联规则不一定有趣;支持度和置信度的不足;兴趣度衡量方法: Interest;回顾;三、数据挖掘技术1; 分类: 预测分类标号预测: 建立连续值函数模型典型应用;数据分类—一个两步过程;分类过程 (1):模型建立;分类过程 (2): 在预测中使用模型;分类法准确性: 估计错误概率;;Supervised vs. Unsupervised Learning;什么是预测?; 线性函数: Y = ? + ? X 多元回归: Y = b0 + b1 X1 + b2 X2. 非线性回归和其他回归模型;分类和预测的问题 (1): 数据准备;分类和预测的问题 (2):比较分类方法;分类与预测不同;三、数据挖掘技术1;3.6用决策树归纳分类;;训练数据集;输出: 概念 “buys_computer”的决策树;决策树归纳算法;划分方式，离散属性;划分方式，连续值属性;决策树归纳（创建决策树）;决策树归纳（创建决策树）;Hunt’s Algorithm;分裂准则;信息增益 (ID3/C4.5);;Examples for computing Entropy;;信息增益 (ID3/C4.5);训练数据集;通过信息增益选择属性;通过信息增益选择属性;用增益率gain ratio选择属性 (C4.5);用增益率gain ratio选择属性 (C4.5);Gini 指标 (CART, IBM IntelligentMiner);比较三种度量;由决策树提取分类规则;例：Web Robot检测;;模型表明;过拟合Overfitting and Tree Pruning剪枝;分类结果的表示;Visualization of a Decision Tree in SGI/MineSet 3.0;回顾