第4章 数据挖掘.pptx

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
商业智能:方法与应用第4章 数据挖掘温浩宇 西安电子科技大学出版社PageRank算法概述PageRank算法原理PageRank算法的应用4.1 数据挖掘概述目 录数据挖掘概念与任务C数据挖掘领域的经典算法4.2 分类ONTENTS4.3 聚类分类概述分类的方法——以决策树为例4.4 关联分析关联分析概述聚类分析概述4.5 PageRank算法关联分析算法——以Apriori算法为例聚类分析方法——以K-Means算法为例4.1 数据挖掘概述数据挖掘领域的经典算法数据挖掘概念与任务数据挖掘概念与任务信息系统的广泛使用系统产生数据规模与复杂性的极速增长传统数据处理方式——数据分析师充当数据与用户接口的产品已无法适应现代需要背景指通过特定算法从大量的数据中揭示数据的模式特征或相互关系的过程,它是数据库知识发现(简称为KDD)过程的一个步骤。定义商业智能管理生产控制市场分析工程设计应用领域 数据挖掘主要任务 数据挖掘主要任务数据挖掘概念与任务01 回归使用一系列的现有数值确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是一种预测性的建模技术。03 分类根据已分类数据的特征建立模型对其他未经分类或是心得数据做预测的过程,是一种有监督的学习过程。区别:是否依赖于预先定义好的类数据挖掘04 聚类对数据记录分组,把相似的记录归集在一个簇(或类)中02 异常检测帮助识别不寻常的数据记录(离群点),这些不寻常的对象、事件或观测结果有可能是最值得特别关注的数据。05 关联规则搜索变量之间的关系数据挖掘概念与任务相同点不同点联系数据挖掘V.S.数据仓库①都是商业智能的重要技术②两者均是决策支持工具①目标不同 数据仓库:为决策提供数据依据; 数据挖掘:为决策提供逻辑依据; ②方法不同 数据仓库:搜集多个信息系统数据,整合并存放于专门储存空间; 数据挖掘:在数据中寻找规律或发现新的知识; 数据仓库 提供数据 数据挖掘数据挖掘V.S.OLAP①均可用于发现信息背后的规律①目标不同 OLAP:发现假设; 数据挖掘:验证假设; ②方法不同 OLAP:先提出假设和数据验证任务,再验证正确性; 数据挖掘:通过算法和工具探索结果 OLAP 数据挖掘数据挖掘V.S.KDD 数据知识发现(KDD)是从数据集中识别出有效的、新颖的、有潜在价值的以及最终可理解的模式的非平凡过程,其核心环节是数据挖掘提供分析模式技术验证结果KDD数据挖掘数据挖掘概念与任务KDD流程图数据挖掘经典算法C4.5算法K-Means算法通过学习数据来建立决策树,是一种有监督的学习过程。它特点是用的是信息增益率帮助选择属性和进行剪枝,能够对非离散数据和不完整数据进行处理。是一种聚类算法,它把数据点到原型的某种距离作为优化的目标函数,通过迭代运算试图找到数据中自然聚类的中心。方法二方法三方法一Apriori算法一种挖掘关联规则的算法,其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集,找到数据之间的关联关系。支持向量机(SVM)通过将向量映射到一个更高维的空间并构造一个超平面来分析数据和识别模式,用来做数据分类和回归分析,是一种有监督的学习过程。方法四数据挖掘经典算法最大期望算法(EM)PageRank算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法。该算法常用与机器学习和计算机视觉等领域的数据聚类分析。PageRank算法根据网页的外部链接和内部链接的数量和质量来衡量网页的价值。PageRank算法可以比较客观地体现网页的相关性和重要性。方法六方法七方法五K邻近算法算法的思路是:如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别。该算法适用于类域的交叉或重叠较多的待分样本集。Adaboost算法该算法通过用同一个训练集多次训练不同的弱分类器,基于弱分类器的加权错误率更新权重向量,从而进行下一次迭代。多次迭代后将各分类器融合起来,构成最后的决策分类器。方法八数据挖掘经典算法朴素贝叶斯方法九以贝叶斯定理为基础,假设一个属性值对给定类的影响独立于其它属性的值,通过已有数据样本的统计规律预测未知类别样本的分类概率是一种构建决策树的算法。CART算法假设决策树是二叉树,左右子树分别是取值为“是”和“否”的分支。通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布。方法十分类与回归(CART)4.2 分类 分类概述分类方法——以决策树为例分类概述分类模型分类是对现有数据进行学习,得到一个目标函数或规则f,把每个属性集x映射到一个预先定义的类标号y(即最终分为的几个类别)分类是一种有监督的学习,根据不同的情况可以使用(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林等算法来实现分类定义分

文档评论(0)

执着仅一次 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档