数据挖掘基本原理..pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘的基本原理 什么是数据挖掘? 为什么会出现数据挖掘? 其他数据分析方法:商业智能 其他数据分析方法:统计学 数据挖掘:多学科的汇合 数据挖掘是一个过程 数据挖掘过程中的数据预处理 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 数据挖掘过程中的数据探索 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 “玩”数据 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方跟-会简化分析?) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类 数据挖掘结果的评价 兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种程度上,对于新数据或者测试数据是有效的、潜在有用或者验证了用户渴望确认的某些假设。 目前仍无很好的解决办法,很大程度上仍依靠人工 不存在解决这个问题的简单技术,最终答案是不要把数据挖掘当作脱离数据内涵的简单技术来运用 客观兴趣度:基于统计或模式的结构,如统计量、支持度、lift等 主观兴趣度:基于用户对数据的确信程度,如意外程度、新奇程度或者可行动性等 过度拟合(Over-fitting)问题 什么不是数据挖掘? 定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。 简单的报表、图表及多维分析仍是日常分析工作的主要内容 小样本数据的分析传统统计分析方法更成熟有效,如趋势预测 某些特定业务问题无法用数据挖掘算法加以解决,例如 资源最优配置问题是个运筹学问题 某些物流管理问题或者供应链管理问题是个随机规划问题 营销预演本质是个系统仿真问题 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段 几类基本的挖掘算法 关联规则(模式、描述型) 发现数据集中的频繁模式 例如:buy(x,”diapers”) ? buy(x,”beers”) [0.5%, 60%] 分类与预测(模型、预测型) 发现能够区分或预测目标变量(唯一的)的规则或者函数 分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示 例如:股票市值的预测,病人病情的判断 聚类(模型、描述型) 对数据分组以形成新类,类标记是未知的 例如:市场细分 孤立点探测(Outlier Detection)(模式、预测型) 分析异常或噪声数据的行为模式 例如:欺诈检测 关联规则的基本概念 基本定义 给定(1)事务数据集(2)每个事务是数据项的集合,试图发现项集中的频繁模式或关联关系 所谓频繁模式或者关联规则就是一个具有“A ? B”形式的逻辑蕴涵式 频繁模式并不必然蕴涵着因果关系或相关关系! 算法实现基本上基于APRIORI法则:频繁项集的所有非空子集一定也是频繁(Frequent)的 基本分类 布尔关联规则 vs 定量关联规则 buy(x,”diapers”) ? buy(x,”beers”) Age(x,”30..39”) ^ income(x,”42k..48k”) ? buy(x,”PC”) 单维关联规则 vs 多维关联规则 单层关联规则 vs 多层关联规则 Age(x,”30..39”) ^ income(x,”42k..48k”) ?

文档评论(0)

wxc6688 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档