- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
认识数据-模式识别课程
模式识别
认识数据
朱卫平 副教授
国际软件学院
武汉大学
目录
数据对象和属性类型
数据的基本统计描述
数据可视化
衡量数据相似性和相异性
总结
数据对象和属性类型
数据集是由数据对象构成的,一个数据对象表
示一个实体。
在销售数据库中,对象可以是顾客、商品或者销售
记录。
在医学数据库中,数据对象可以是病人。在大学数
据库中,数据对象可以是学生、教授和课程。
数据对象用属性来描述。
如果数据对象存放在数据库中,它们是数据元
组。即数据库中行对应数据对象,列对应于属
性。
什么是属性?
属性表示数据对象的一个特征。
“属性”、“维度”、“特征”和“变量”这些词在语义上
是可交换的。“维度”通常被用在数据仓库中,机器学习、
模式识别中倾向于使用“特征”;统计学倾向使用“变量”,
数据挖掘和数据库经常使用“属性”。
属性描述一个顾客对象,如:顾客ID, 姓名,地址。
包含单个属性的数据分布被称为单变量的分布;包含2个属
性的被称为二变量的分布
刻画一个给定对象的属性集合被称为属性向量(或特
征向量)。
属性的类型是有属性可取的值决定的,有标称的、二
元的、序数的或者数值的各种类型。
标称属性
标称属性(nomimal attribute)是事物的标号或者名
称。
每一个值表示类别、编码或者状态。
值没有次序信息。
在计算机领域,也可以称为枚举型。
举例如:发色和婚姻状态。
发色可以是黑色,棕色,红色,灰色,白色。
婚姻状态可以是单身、已婚、离异或者丧偶。
标称属性
尽管名词属性是标号或者名称,但也可以是数值
的表示形式。
比如,发色,可以用0表示黑色,1表示棕色等。顾客ID
可以是数字。
但是,在这种情况,数字并不被当成数值来使用。
因为名词属性不包含任何顺序信息也非数值型,
所以不用中值或者平均数去衡量这类属性。
可以使用属性最多出现的值‐‐ “众数”来做中心
趋势测量。
二元属性
二元属性是一种标称属性,只有两个类别或状态:0
和1.
0一般表示属性缺失,1表示存在。
二元属性又称布尔属性,两个状态表示真和假。
举例:病人的吸烟属性,1表示吸烟,0表示不吸烟。再比如,
病人的某个医学检查结果有两种情况。1表示结果为阳性,0
表示为阴性。
如果二进制属性的两个状态是同等有价值的具有相同的权重,
则为对称的。2个属性被标为1或者0都可以,比如性别属性
的两个值男和女。
如果两个状态不是同等重要的,则为非对称的。比如HIV检
查的结果呈阴性和阳性。通常,用1表示更重要的通常是更
稀少的结果,其他的用0表示。
序数属性
序数属性具有次序或者级别的值。但是相邻值之
间的差是未知的。
举例:例如饮料尺寸,可以是“小杯”,“中杯”,
“大杯”。值有顺序的意义,但是不能分辨中杯比大
杯大多少。
序数属性被用来衡量无法客观衡量的属性,用主观的
评估定质量。在调查中常用来排序。比如,参与者作
为顾客,他们的满意度可以是:0 :非常不满意,1 有
点不满意,2 中立3 满意 4 很满意
把数值数据离散化,把它们按照值的范围分类,也可
以得到序数属性的
文档评论(0)