- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据--学习笔记讲解
引论
什么是数据挖掘?
数据挖掘更正确的命名为“从数据中挖掘知识”,是数据中的知识发现(KDD)的同义词。数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据。
知识发现的过程是什么?
知识发现的过程为:
(1)数据清理(消除噪声和删除不一致的数据)
(2)数据集成(多种数据源可以组合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
3、什么类型的数据可以挖掘?
数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、数据仓库数据、事务数据。也可以用于数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。
数据库数据
由一组内部相关的数据和一组管理和存储数据的软件程序组成。关系数据库是表的汇集,每个表被赋予一个唯一的名字,含有一组属性(列或字段),并且通常存放大量元组(记录或行)。每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系(ER)数据模型。
数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库用称作数据立方体的多维数据结构建模。每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值
事务数据
每个记录代表一个事务
什么类型的模式可以挖掘?
数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便进行预测。
类/概念描述:特征化与区分
数据可以与类或概念相关联。数据特征化是目标类数据的一般特性或特征的汇总。将数据汇总和特征化的方法:基于统计度量和图的简单数据汇总、基于数据立方体的OLAP上卷操作、面向属性的归纳技术。数据特征的输出可以用多种形式提供:饼图、条图、曲线、多位数据立方体、多维表;数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
挖掘频繁模式、关联和相关性
频繁模式包括频繁项集(基础)、频繁子序列和频繁子结构。
用于预测分析的分类与回归
分类预测类别标号,而回归建立连续值函数模型。回归分析是最常用的数值预测统计学方法,相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。
(4)聚类分析
聚类分析数据对象,而不考虑类标号。
离群点分析
大部分数据挖掘都将离群点作为噪声或异常而丢弃,然而在一些应用中可以做离群点分析或异常挖掘
支持度与置信度
支持度表示事物数据库中满足规则的事物所占的百分比,置信度评估所发现的规则的确信程度。
准确率即被一个规则正确分类的数据所占的百分比,覆盖率类似于“支持度”表示规则可以作用的数据所占的百分比。
认识数据
数据对象与数据类型
数据对象又称样本、实例、数据点或对象,数据对象存放在数据库中,则他们为数据元组,即数据库的行对应于数据对象,列对应于属性。
属性:表示数据对象的一个特征(属性、维、特征、变量)
标称属性:一些符号或事物的名称(分类的或枚举的),标称属性可以取整数值,但是不能把它视为数值属性。
二元属性:是一种标称属性,只有两种状态,0或1,0通常表示该属性不出现,1表示出现。二元属性有对称与非对称两种。
序数属性:可能的值之间具有意义的序或秩评定,但是相继值之间的差是未知的。中心趋势可以用它的众数和中位数表示,但不能定义均值。
数值属性:定量的,用整数或实数值表示,数值属性可以是区间标度的或比率标度的。除了中心趋势度量中位数和众数之外,还可以计算均值。比率标度属性是具有固有零点的数值属性。
离散属性与连续属性:离散属性具有有限或无限可数个值,可以用或不用整数表示
数据的基本统计描述
(1)中心趋势度量,度量数据分布的中部或中心位置,包括均值、加权平均、中位数、众数和中列数;均值对极端值比较敏感,为了抵消少数极端值的影响,可以使用截尾均值;对于非对称数据,数据中心最好用中位数;众数是集合中出现最频繁的值,分为单峰、双峰和三峰,对于适度倾斜的单峰数值数据,有经验公式:均值-众数=3*(均值-中位数);中列数是数据集的最大和最小值的平均值。
(2)数据的散布,最常见度量是极差、四分位数、四分位极差、五数概括和盒图,以及数据的方差和标准差。极差:最大值与最小
文档评论(0)