《大数据技术与应用》第6章 大数据挖掘技术.pptxVIP

  • 17
  • 0
  • 约2.88万字
  • 约 124页
  • 2023-05-16 发布于广东
  • 举报

《大数据技术与应用》第6章 大数据挖掘技术.pptx

第六章 大数据挖掘技术 数据挖掘基础01目 录CONTENTS聚类分析0203回归分析04分类分析关联分析05异常检测06 01PART 数据挖掘基础 数据挖掘概述数据挖掘的背景01海量数据的分析需求现在无论是线下的大超市还是线上的商城,每天都会产生TB级以上的数据量。以往人们得不到想要的数据,是因为数据库中没有数据,而现在仍然无法快捷地得到想要的数据,其原因是数据库里面的数据太多了,缺少获取数据库中利于决策的有价值数据的有效方法。大量的信息在给人们带来便利的同时也带来了许多问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息的形式并不总是相同的,很难统一处理。人们开始考虑:“怎么样才能不被信息的海洋所淹没,并且从大量的信息中发理现有价值的知识、提高信息利用率?”。因此,海量数据的分析需求催生了数据挖掘。 数据挖掘概述数据挖掘的背景01“数据爆炸但知识贫乏”的现象数据库技术的飞速发展和数据库管理系统的广泛应用,导致数据的积累速度变快,积累量不断增加。在这爆炸性增长的数据中隐藏着许多重要的、有价值的信息,人们希望能够深入分析这些数据,以达到提高数据利用率的目的。数据库管理系统现在已经实现了高效地输入、查询、统计等功能,但是数据中存在的关联关系和规则仍然无法被发现,无法通过分析现有的数据来预测未来的发展趋势,缺少挖掘数据背后有用知识的手段,导致“数据爆炸但知识贫乏”的现象出现。因此,人们迫切需要功能强大的工具去挖掘海量数据背后的知识,让数据成为真正意义上的知识泉源,于是数据挖掘技术应运而生。 数据挖掘概述数据挖掘的意义02数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些信息的表现形式为:规则、概念、规律及模式等。这一定义包括多层含义:数据源必须是真实的、海量的、含噪声的。发现的是用户感兴趣、新颖的知识。发现的知识应该可接受、可理解、可运用、有价值。知识的形式可以是概念、规则、模式、规律等形式。 数据挖掘概述数据挖掘的意义02数据挖掘的意义数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。知识发现的过程 数据挖掘的主要任务通常情况下,数据挖掘任务可以分为以下两大类:预测类任务。这些任务的目标是根据其他属性的值,预测特定属性的值。描述类任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。四种主要的数据挖掘任务 数据挖掘的主要任务聚类是一种查找隐藏在数据之间内在结构的技术。聚类是将所有的样本数据组织成一些相似的组,根据样本数据的特点对其进行分类,使得同一类别中的数据实例具有相似性的特点,不同类别的数据实例相似性应尽可能小。聚类技术通常被称为无监督学习,进行聚类分析时并不知道数据能够被分成多少类,在聚类中数据类别或者分组信息是未知的。聚类分析完全基于原始数据,没有任何关于类别的信息可供参考。典型应用:客户分类文本分类医疗图像自动监测等聚类分析01 数据挖掘的主要任务预测建模是通过变量函数的方式为目标变量建立模型。预测建模任务通常分为两大类:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变量是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模02 数据挖掘的主要任务分类是指基于一个可以预测的属性把数据分成多个类别。每个类别都有一组属性,该属性与其他任何类别的属性都不相同。由于类别在分析测试数据之前就已经被定义,所以分类是一种监督学习。分类算法要求基于数据属性值来定义类别,并且通常通过给定类别的数据的特征来描述类别。分类的过程可分为两步:模型的创建,通过学习训练集建立分类模型模型的应用,利用分类模型对数据进行分类。典型应用:科学实验医疗诊断气象预报商业预测预测建模——分类02 数据挖掘的主要任务回归分析就是先进行拟合,然后得到一个相应的数学表达式,拟合时需要参照具有相关关系的变量所具有的变化规律。它研究的是一个变量与其他变量之间的依存关系,并用数学模型进行模拟,目的在于根据已知的解释变量的值,预测因变量的总体平均值。回归分析的步骤:根据研究问题的要求建立回归模型。根据样本观测值对回归模型参数进行估计,进而求得回归方程。对回归方程、参数估计值进行显著性检验,并从影响因变量的自变量中判断哪些显著,哪些不显著。利用回归方程进行预测。典型应用:解释市场占有率、销售

文档评论(0)

1亿VIP精品文档

相关文档