大数据分析与挖掘.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
⼤数据分析与挖掘 第⼀章 绪论 1.1 ⼤数据分析与挖掘简介 1. ⼤数据的四个显著特点:容量(Volume)、多样性(Variety)、速度(Velocity)、价值(Value) 2. 数据挖掘提取出的知识⼀般可表⽰为:概念、规则、规律、模式等形式 1.3 ⼤数据分析与挖掘的主要技术 任务⽬标的确定 ⽬标数据集的提取 数据预处理 建⽴适当的数据分析与挖掘模 1. ⼤数据分析与挖掘的主要步骤:(1) (2) (3) (4) 型 知识的应⽤ (5) 对数据的统计分析与特征描述 关联规则挖掘和相关性分析 分类和回归 聚类分 2. 数据挖掘主要包括如下功能:(1) (2) (3) (4) 析 异常检测或者离群点分析 (5) 第⼆章 数据特征分析与预处理 2.1 数据类型 1. 数据集类型:结构化数据、半结构化数据 2. 数据属性的类型:标称属性、序数属性、数值属性 2.2 数据描述性特征 2.2.1 描述数据集中趋势的度量 1. 算术平均数 2. 中位数 3. 众数 4. k百分位数 5. 四分位数 2.2.2 描述数据离中趋势的度量 1. 极差 2. 四分位数极差 2.2.3 数据分布形态的度量 峰度⽤于衡量数据的平坦度 k≈0,称为常峰态 k0,称为低峰态 k0,称为尖峰态 2.2.4 数据分布特征的可视化 箱型图 2.3 数据的相关分析 2.3.1 相关分析 散点图 相关系数 0r≤1,表明X和Y之间存在正线性相关关系;-1≤r0,表明X和Y之间存在负相关关系;r=0,表明X和Y之间吧不存在线性相关关系,但并不排 除⼆者之间存在⾮线性相关性 2.4 数据预处理 零均值化,零均值化的过程就是在空间中沿着各个属性的坐标,对数据进⾏平移使均值为零的过程 z分数变换适⽤于数据的各个属性值差异较⼤,或者数据挖掘算法假设数据服从正态分布的情况下 z分数的缺点在于假设原始数据并没有呈⾼斯分布,标准化的数据分布效果并不好 独热编码 缺点:当数据类别的数量很多时,特征空间会变得⾮常⼤ 2.4.4 数据清洗 指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量, 完全随机缺失(missing completely at random,MCAR): 不影响样本的⽆偏性,如家庭地址缺失;举例:⼀位⽼师抱着批改完的卷⼦⾛在路上,不⼩⼼摔倒丢失了⼏张卷⼦,因此有⼏位同学没 有成绩。这种成绩缺失不是因为成绩这个变量本⾝⾼或低⽽丢失的,⽽是随机丢失的;也与性别等⽆关,不会出现男⽣卷⼦丢失概率 ⾼,⼥⽣卷⼦丢失概率低的问题。 随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失 情况与企业的⼤⼩有关;举例:我们的⽬标是要统计⼀个班学⽣的基本信息,包括名字、性别、⾝⾼、体重等。⽽此时如果某⼀学⽣的 体重这⼀变量缺失,这⼀事件最可能发⽣在哪些⼈⾝上呢?⼀般来说,是⼥⽣。因此体重缺失与已知变量性别相关,这就叫做条件随机 缺失。 指的是数据的缺失与不完全变量 ⾃⾝的取值有关,如⾼收⼊⼈群不原意提供家庭收 ⾮随机缺失(missing not at random,MNAR): ⼊ ; 举例:通常在收集数据时收⼊⼀栏很容易缺失,发⽣这种情况的原因可能是填写⼈收⼊过⾼或过低。因此收⼊缺失与填写⼈本⾝ 收⼊有关,这就叫做⾮随机缺失。 均值填充法 :如果缺失值是数值型,就⽤该属性在其他所有对象的取值的平均值来填充该缺失的变量值 ;如果缺失值是⾮数值型,则使 ⽤众数补齐该缺失的变量值。 等宽分箱法 : 第三章关联规则挖掘 3.1 基本概念 在⼀个事务集合T中,项集X在T中出现的次数就是项集X⽀持度计数

您可能关注的文档

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档