数据挖掘基本原理..pptVIP

下载本文档

29
0
约5.91千字
约 40页
2019-06-15 发布于四川
举报
版权申诉

数据挖掘基本原理..ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘的基本原理什么是数据挖掘？为什么会出现数据挖掘？其他数据分析方法：商业智能其他数据分析方法：统计学数据挖掘：多学科的汇合数据挖掘是一个过程数据挖掘过程中的数据预处理数据清洗填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题主要分析方法：分箱（Binning）、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时, 还可以得到相同或相近的分析结果主要分析方法：抽样、主成分分析数据离散化数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 数据挖掘过程中的数据探索探索性数据分析（Exploratory Data Analysis, EDA）探索性地查看数据，概括数据集的结构和关系对数据集没有各种严格假定 “玩”数据主要任务数据可视化（a picture is worth a thousand words）残差分析（数据＝拟合 + 残差）数据的重新表达（什么样的尺度－对数抑或平方跟－会简化分析？）方法的耐抗性（对数据局部不良的不敏感性，如中位数耐抗甚于均值）常见方法统计量，如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图，如饼图、直方图、散点图、箱尾图等模型，如聚类数据挖掘结果的评价兴趣度度量：一个模式是有意义的，如果它易于被人理解，在某种程度上，对于新数据或者测试数据是有效的、潜在有用或者验证了用户渴望确认的某些假设。目前仍无很好的解决办法，很大程度上仍依靠人工不存在解决这个问题的简单技术，最终答案是不要把数据挖掘当作脱离数据内涵的简单技术来运用客观兴趣度：基于统计或模式的结构，如统计量、支持度、lift等主观兴趣度：基于用户对数据的确信程度，如意外程度、新奇程度或者可行动性等过度拟合（Over-fitting）问题什么不是数据挖掘？定量分析（Quantitative Analysis）的需要存在企业管理运行的各个侧面或环节，但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。简单的报表、图表及多维分析仍是日常分析工作的主要内容小样本数据的分析传统统计分析方法更成熟有效，如趋势预测某些特定业务问题无法用数据挖掘算法加以解决，例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题几个基本概念模型（Model） vs 模式（Pattern）数据挖掘的根本目的就是把样本数据中隐含的结构泛化（Generalize）到总体（Population）上去模型：对数据集的一种全局性的整体特征的描述或概括，适用于数据空间中的所有点，例如聚类分析模式：对数据集的一种局部性的有限特征的描述或概括，适用于数据空间的一个子集，例如关联分析算法（Algorithm）：一个定义完备（well-defined）的过程，它以数据作为输入并产生模型或模式形式的输出描述型挖掘（Descriptive） vs 预测型挖掘（Predictive）描述型挖掘：对数据进行概括，以方便的形式呈现数据的重要特征预测型挖掘：根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的，也可以是手段几类基本的挖掘算法关联规则（模式、描述型）发现数据集中的频繁模式例如：buy(x,”diapers”) ? buy(x,”beers”) [0.5%, 60%] 分类与预测（模型、预测型）发现能够区分或预测目标变量（唯一的）的规则或者函数分类的目标变量一般是范畴型的，而预测则是数量型的，并不必然带有任何时间延续型的暗示例如：股票市值的预测，病人病情的判断聚类（模型、描述型）对数据分组以形成新类，类标记是未知的例如：市场细分孤立点探测（Outlier Detection）（模式、预测型）分析异常或噪声数据的行为模式例如：欺诈检测关联规则的基本概念基本定义给定（1）事务数据集（2）每个事务是数据项的集合，试图发现项集中的频繁模式或关联关系所谓频繁模式或者关联规则就是一个具有“A ? B”形式的逻辑蕴涵式频繁模式并不必然蕴涵着因果关系或相关关系！算法实现基本上基于APRIORI法则：频繁项集的所有非空子集一定也是频繁（Frequent）的基本分类布尔关联规则 vs 定量关联规则 buy(x,”diapers”) ? buy(x,”beers”) Age(x,”30..39”) ^ income(x,”42k..48k”) ? buy(x,”PC”) 单维关联规则 vs 多维关联规则单层关联规则 vs 多层关联规则 Age(x,”30..39”) ^ income(x,”42k..48k”) ?