清华大学大数据课程第4次课数据挖掘技术145.pptx

下载文档

0
0
约1.96千字
约 145页
2023-06-10 发布于江苏
举报
版权申诉
保障服务

清华大学大数据课程第4次课数据挖掘技术145.pptx

1、本文档共145页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据分析和内存计算第4讲数据挖掘技术概述;提纲;数据挖掘概览;数据挖掘定义;模式有效性度量;为何需要数据挖掘？;为何需要数据挖掘？;数据挖掘的意义;数据挖掘应用;数据挖掘应用;数据挖掘步骤;数据质量：为何需要数据预处理？;数据挖掘预处理的主要任务;数据清洗;缺失值〔Incomplete/Missing Data);如何补充缺失值;噪声数据;如何处理噪声数据;分箱(Binning);数据平滑的分箱方法;聚类：Cluster Analysis;Regression;数据集成;数据变换〔标准化〕;数据变换;数据规约;数据规约;数据立方体;属性子集选择;维度规约;数值规约;离散化;抽样;分类;分类;分类应用;分类步骤;〔1〕模型的构建;〔2〕利用模型分类;分类方法评价;分类器性能评价方式;评估分类方法的准确性;分类方法;基于距离的分类方法;基于距离的分类方法的直观解释;距离计算方法;基于距离的分类方法的一般性描述;K近邻算法〔KNN〕;K近邻算法〔KNN〕;K近邻算法〔KNN〕;K近邻算法〔KNN〕;;决策树〔Decision Tree〕;决策树;决策树;决策树;决策树的步骤;决策树;分裂属性选择;分裂属性选择;信息增益的计算;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树算法;决策树分类规那么提取;贝叶斯分类;贝叶斯分类;朴素贝叶斯分类;朴素贝叶斯分类;朴素贝叶斯分类;;朴素贝叶斯分类举例;朴素贝叶斯分类举例;朴素贝叶斯分类举例;朴素贝叶斯分类举例;;聚类：Cluster;聚类图示;聚类与分类的区别;聚类分析;K-means;K-means步骤;初始值敏感;K-mediods步骤;聚类方法性能评价;聚类方法性能评价;聚类评价;常用的相似性度量方法;相似性度量方法;聚类分析〔续〕基于层次的方法：层次的方法对给定数据集合进行层次的分解。根据层次的分解如何形成，层次的方法可以被分为凝聚或分裂方法。〔Chameleon ，CURE，BIRCH〕基于密度的方法：只要临近区域的密度超过某个阈值，就继续聚类。防止仅生成球状聚类。〔DBSCAN，OPTICS，DENCLUE〕基于网格的方法：基于网格的方法把对象空间量化为有限数目的单元，所有的聚类操作都在这个量化的空间上进行。??种方法的主要优点是它的处理速度很快。〔STING，CLIQUE，WaveCluster〕基于模型的方法：为每个簇假设一个模型，发现数据对模型的最好匹配。〔COBWEB，CLASSIT，AutoClass〕 ;DBSCAN;DBSCAN;DBSCAN;DBSCAN;DBSCAN;DBSCAN;DBSCAN;基于密度方法的聚类- DBSCAN;DBSCAN聚类过程;DBSCAN聚类过程;DBSCAN聚类过程;DBSCAN聚类过程;DBSCAN聚类过程;基于密度方法的聚类- DBSCAN;DBSCAN;关联规那么;关联规那么：Association Rule;规那么度量：支持度与可信度;关联规那么挖掘问题就是根据用户指定的最小支持度和最小可信度来寻找强关联规那么。关联规那么挖掘问题可以划分成两个子问题： 1.发现频繁工程集:通过用户给定最小支持度，寻找所有频繁工程集或者最大频繁工程集。 2.生成关联规那么:通过用户给定最小可信度，在频繁工程集中，寻找关联规那么。第1个子问题是近年来关联规那么挖掘算法研究的重点。;经典的发现频繁工程集算法;Apriori算法例子; 根据上面介绍的关联规那么挖掘的两个步骤，在得到了所有频繁工程集后，可以按照下面的步骤生成关联规那么：对于每一个频繁工程集 l ，生成其所有的非空子集；对于l 的每一个非空子集x，计算Conference〔x〕，如果Confidence〔x〕≥minconfidence，那么“ x?(l-x) 〞成立。关联规那么生成算法: 从给定的频繁工程集中生成强关联规那么该算法的核心是genrules递归过程，它实现一个频繁工程集中所有强关联规那么的生成。;Rule-generate算法例子;算法问题;FP-tree算法的根本原理;FP-tree算法的根本原理;FP-tree算法的根本原理;FP-tree算法的根本原理;序列模式概念;序列模式表示;序列模式挖掘;序列模式挖掘算法;预测：Prediction;分类vs.预测;回归方法〔Regression〕;;大型数据库中描述统计计量;度量中心趋势;度量数据的离散度;度量数据的离散度;盒图-例如;根本统计类描述的图像显示-直方图