第2章_数据.ppt

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章_数据

数据挖掘:概念与技术 数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明 等译 人民邮电出版社 第2章 数据 数据类型 数据质量 数据预处理 相似性和相异性度量 2.1 数据类型 数据 数据集是数据对象的集合 数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)的属性描述 数据对象的其他名称 记录、点、向量、模式、事件、案例、样本、观测或实体 属性的其他名称 变量、特性、字段、特征或维 属性与度量 属性( Attribute ) 是对象的性质或特征 例: 眼球颜色、温度, etc. 属性值(Attribute values) 是赋予属性的数或符号 属性vs属性值 相同的属性可以映射不同的属性值 例如: 高度可以用尺或米度量 不同的属性可以映射到相同的值集合 例如: ID 和 age 都可以是整数 但是,属性的性质可能不同 ID 没有什么限制,但 age 有最大和最小值 例:线段长度 度量属性的方法可能与属性的性质不符 例 属性的类型 不同类型的属性 标称(Nominal) 例: ID 号、眼球颜色、邮政编码 序数( Ordinal ) 例: 军阶 、 gpa、用 {tall, medium, short}表示的高度 区间(Interval) 例: 日历、摄氏或华氏温度. 比率(Ratio) 例: 开氏温度、长度、计数 属性值的性质 The type of an attribute depends on which of the following properties it possesses: Distinctness: = ? Order: Addition: + - Multiplication: * / Nominal attribute: distinctness Ordinal attribute: distinctness order Interval attribute: distinctness, order addition Ratio attribute: all 4 properties 离散vs.连续属性 离散属性(Discrete Attribute) 有限或无限可数 (countable infinite )个值 例: 邮政编码、计数、文档集的词 常表示为整数变量. 连续属性(Continuous Attribute) 属性值为实数 例: 温度、高度、重量. 实践中, 实数只能用有限位数字的数度量和表示. 连续属性一般用浮点变量表示. 对称vs.非对称二元属性 二元属性(binary attributes) 仅取两个不同值,常用0、1表示 是离散属性的特例 对称的二元属性 两个值一样重要 例如,性别 非对称的二元属性 通常,一个值比另一个更重要 重要的值通常比较少出现,通常用1表示 例如,化验结果{阴性,阳性},其中阳性较少,但更值得关注 数据集的重要特性 维度(Dimensionality) 数据集的维度是数据集中的对象具有的属性数目 维灾难(Curse of Dimensionality) 维归约(dimensionality reduction) 稀疏性(Sparsity) 具有非对称特征的数据集,一个对象的大部分属性上的值都为0 只存储和处理非零值 分辨率(Resolution) 模式依赖于度量尺度(scale) 在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦 小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到 数据集类型 记录 Data Matrix Document Data Transaction Data 图(Graph) World Wide Web Molecular Structures 有序(Ordered)数据 Spatial Data Temporal Data Sequential Data Genetic Sequence Data 记录数据: 典型情况 记录数据有多种变体 典型的记录数据 Data that consists of a collection of records, each of which consists of a fixed set of attributes 记录数据: 数据矩阵 如果数据对象都具有固定个数的数值属性,则可以吧数据对象看做多维空间中的点,其中每个位代表一个不同的属性 这种数据可以用一个 m ? n 矩阵表示, 其中 m 行, 每个代表一

文档评论(0)

441113422 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档