认识数据-模式识别课程.pdf

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
认识数据-模式识别课程

模式识别 认识数据 朱卫平 副教授 国际软件学院 武汉大学 目录  数据对象和属性类型  数据的基本统计描述  数据可视化  衡量数据相似性和相异性  总结 数据对象和属性类型  数据集是由数据对象构成的,一个数据对象表 示一个实体。  在销售数据库中,对象可以是顾客、商品或者销售 记录。  在医学数据库中,数据对象可以是病人。在大学数 据库中,数据对象可以是学生、教授和课程。  数据对象用属性来描述。  如果数据对象存放在数据库中,它们是数据元 组。即数据库中行对应数据对象,列对应于属 性。 什么是属性?  属性表示数据对象的一个特征。  “属性”、“维度”、“特征”和“变量”这些词在语义上 是可交换的。“维度”通常被用在数据仓库中,机器学习、 模式识别中倾向于使用“特征”;统计学倾向使用“变量”, 数据挖掘和数据库经常使用“属性”。  属性描述一个顾客对象,如:顾客ID,  姓名,地址。  包含单个属性的数据分布被称为单变量的分布;包含2个属 性的被称为二变量的分布  刻画一个给定对象的属性集合被称为属性向量(或特 征向量)。  属性的类型是有属性可取的值决定的,有标称的、二 元的、序数的或者数值的各种类型。 标称属性  标称属性(nomimal attribute)是事物的标号或者名 称。  每一个值表示类别、编码或者状态。  值没有次序信息。  在计算机领域,也可以称为枚举型。  举例如:发色和婚姻状态。  发色可以是黑色,棕色,红色,灰色,白色。  婚姻状态可以是单身、已婚、离异或者丧偶。 标称属性  尽管名词属性是标号或者名称,但也可以是数值 的表示形式。  比如,发色,可以用0表示黑色,1表示棕色等。顾客ID 可以是数字。  但是,在这种情况,数字并不被当成数值来使用。  因为名词属性不包含任何顺序信息也非数值型, 所以不用中值或者平均数去衡量这类属性。  可以使用属性最多出现的值‐‐ “众数”来做中心 趋势测量。 二元属性  二元属性是一种标称属性,只有两个类别或状态:0 和1.  0一般表示属性缺失,1表示存在。  二元属性又称布尔属性,两个状态表示真和假。  举例:病人的吸烟属性,1表示吸烟,0表示不吸烟。再比如, 病人的某个医学检查结果有两种情况。1表示结果为阳性,0 表示为阴性。  如果二进制属性的两个状态是同等有价值的具有相同的权重, 则为对称的。2个属性被标为1或者0都可以,比如性别属性 的两个值男和女。  如果两个状态不是同等重要的,则为非对称的。比如HIV检 查的结果呈阴性和阳性。通常,用1表示更重要的通常是更 稀少的结果,其他的用0表示。 序数属性  序数属性具有次序或者级别的值。但是相邻值之 间的差是未知的。  举例:例如饮料尺寸,可以是“小杯”,“中杯”, “大杯”。值有顺序的意义,但是不能分辨中杯比大 杯大多少。  序数属性被用来衡量无法客观衡量的属性,用主观的 评估定质量。在调查中常用来排序。比如,参与者作 为顾客,他们的满意度可以是:0 :非常不满意,1 有 点不满意,2 中立3 满意 4 很满意  把数值数据离散化,把它们按照值的范围分类,也可 以得到序数属性的

文档评论(0)

sunhongz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档