网站大量收购独家精品文档,联系QQ:2885784924

第06章数据(A)综述.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 第06章 数据 第6章 数据 数据类型 数据质量 数据预处理 相似性和相异性的度量 2 何为数据? 数据对象及其属性的集合 属性是一个对象的性质或特征 例子:一个人的眼睛的颜色、温度、等。 属性也被称为变量、字段、特性或特征 属性的集合描述一个对象 对象也被称为记录、点、事件、样本、实体或实例 Attributes Objects 3 属性值 属性值是分配给属性的数字或符号 属性和属性值之间的区别 相同的属性可以映射到不同的值域 例如:高度可以用英尺或米来测量 不同的属性可以映射到相同的值域 例:身份证和年龄的属性值是整数 身份证没有限制,但年龄有一个最大值和最小值 4 长度的度量 不同的方式衡量的属性是有可能不匹配的属性 5 属性的类型 有不同类型的属性 Nominal(标称) 例子:身份号码,眼睛颜色,邮政编码 Ordinal(序数) 例子:排名(例如,口味薯片上的范围从1-10),等级,在{高,中等身高,短} Interval(区间) 例如:日历日期,摄氏度或华氏度的温度 Ratio(比例) 例子:在开尔文温度、长度、时间、计数 6 属性值的性质 7 属性值的性质 8 属性值的性质 9 离散和连续属性 离散属性 具有有限或无限可数个值 例如:邮政编码, 计数, 文档集合中的单词集合 常用整数变量表示. 注意:二元属性是离散属性的一种特殊情况 连续属性 属性值取实数 例如:温度, 高度, 重量. 实践中, 实数值只能用有限的精度测量和表示. 连续属性用浮点变量表示. 10 数据集的类型 记录数据 数据矩阵 文档数据 事务数据 基于图形的数据 World Wide Web 分子结构 有序的数据 空间数据 时间数据 时序数据 基因序列数据 11 结构数据的重要特征 维度 维灾难 稀疏性 仅存在计数 分辨率 模式依赖范围和规模 12 记录数据 数据是记录的集合, 每个记录包含固定的数据字段(属性)集 13 数据矩阵 如果所有数据对象都有相同的数值属性值, 则数据对象可以看作是多维空间中的点, 其中每个维代表一个不同的属性 这些数据可以用一个 m×n 的矩阵表示, 其中 m 行, 一个对象一行; n 列, 一个属性一列 14 文档数据 每个文档用一个 “词” 向量表示, 每个词是向量的一个分量 (属性) , 每个分量的值是对应词在文档中出现的次数. 15 事务数据 一种特殊类型的记录数据, 其中 每个记录 (事务) 包含一个项的集合. 例如, 在一家杂货店. 顾客在一次购物中购买商品的集合构成一个事务, 购买的商品就是项. 16 图数据 例如: 基因图和HTML链接 17 化学数据 苯分子: C6H6 18 有序数据 事务序列 An element of the sequence Items/Events 19 有序数据 基因组序列数据 20 有序数据 时空数据 Average Monthly Temperature of land and ocean 21 数据质量 存在哪些数据质量问题? 如何检测数据问题? 针对这些数据我们能做什么? 数据质量问题的例子 噪声和孤立点 缺失值 重复数据 22 噪声 噪声是指对原始值的修改 例如: 在一部糟糕的电话机上通话的失真; 电视屏幕上的 “雪花” 两个正弦波 两个正弦波 + 噪声 23 孤立点 孤立点的特点是与数据集中的其它大部分数据对象差异非常大 24 缺失值 缺失值的原因 信息未收集 (例, 顾客拒绝提供自己的年龄和体重) 属性没有应用到所有案例中 (例, 年收入属性不适用于儿童) 处理缺失值 消除数据对象 估计缺失值 分析时忽略掉缺失值 用可能值替换 (根据概率确定权重) 25 重复数据 数据集可能包含重复或几乎重复的对象 从异构数据源中合并数据时的主要问题 例如: 同一人拥有多个email信箱 数据清洗 处理有重复数据的问题 26 精度、偏倚和准确率 精度:(同一个量的)重复测量值之间的接近程度 偏倚:测量值与被测量之间的系统的变差 准确率:被测量的测量值与实际值之间的接近度 27 数据预处理 聚集 抽样 维规约 特征子集选择 特征创建 离散化和二元化 属性变换 28 聚集 将两个或更多的属性 (或对象) 合并为一个属性 (或对象) 目的: 数据规约 减少属性或对象的数量 改变辖域 城市聚集到地区, 州, 国家等 更 “稳定” 的数据 聚集数据有较小的变异性 缺点: 可能丢失有趣的细节 如最高销售额 29 聚集 澳大利亚的降水变化 月均降水的标准差 年均降水的标准差 30 抽样 抽样是选择数据的主要技术 常用于数据的事先调查和最终的数据分析 获得感兴趣的整个数据

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档