数据挖据概念与技术第二章资料.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与技术 第二章 认识数据 2.1 数据对象与属性类型 2.2 数据的基本统计描述 2.3 数据的可视化 2.4 度量数据的相似性和相异性 2.5 小结 第二章 认识数据 数据集是由数据对象构成的。一个数据对象表示一个实体——在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。 数据对象用属性来描述。 数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,列对应于属性。 2.1 数据对象与属性类型 2.1.1 什么是属性 一个属性是一个域,表示一个数据对象的一个特征。 “属性”、“维度”、“特征”和“变量”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。 属性描述一个顾客对象,如:顾客ID,姓名,地址。 对给定的属性的可观察值被称为观察。刻画一个给定对象的属性集合被称为属性向量(或特征向量)。 2.1 数据对象与属性类型 2.1.2 标称属性 标称属性的值是事物的标号或者名称。每一个值表示类别、编码或者状态。因此标称属性被用来分类。值没有次序信息。在计算机领域,也可以称为枚举型。 举例如:发色和婚姻状态。发色可以是黑色,棕色,红色,灰色,白色。婚姻状态可以是单身、已婚、离异或者丧偶。这些都是标称属性。 2.1 数据对象与属性类型 2.1.3 二元属性 二元属性是一种标称属性,只有两个类别或状态:0或1,其中0表示该属性不出现,而1表示出现。二元属性又称布尔属性,对应true和false。 对 称:两种状态权重相等 性别 非对称:两种状态权重不等相等 疾病化验 2.1 数据对象与属性类型 2.1.4 序数属性 序数属性的可能值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。 例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+;职称:助理,副教授,教授 序数属性可以用来记录不能客观度量的主观质量评估 在调查中常用来排序。比如,参与者作为顾客,他们的满意度可以是:0:非常不满意,1 有点不满意,2 中立 3 满意 4 很满意 2.1 数据对象与属性类型 2.1.5 数值属性 数值型属性是定量的,是可测量的数值,为整数或实数。数值属性可以是区间标度的或比率标度的。 区间标度:用相等的单位度量, 有序,可定量评估 温度(排序 26度与21度年5度) 比率标度:具有故有的零点的数值属性 ,存在倍数,有序,可定量评估 货币量(100元人民币比50元人民币多2倍) 2.1 数据对象与属性类型 2.1.6 离散属性与连续属性 机器学习通常把属性分成离散的或连续的 离散属性有有限的或者无限可数的值集合,可以用或不用整数表示。例如发色,是否吸烟,医学检查结果,饮料尺寸,都有有限的值,因此是离散的。 如果值不是离散的,则是连续的。数值属性或者连续属性是含义上是一样的。 2.1 数据对象与属性类型 2.2.1 中心趋势度量:均值,中位数,众数 2.2 数据的基本统计描述 均值 加权平均 2.2 数据的基本统计描述 2.2.1 中心趋势度量:均值,中位数,众数 众数:集合中出现最频繁的值,可以是多个 单峰,多峰。 经验关系式 2.2 数据的基本统计描述 中列数:是数据集中最大值和最小值的平均值。 可以用来评估数值型数据的中心性趋势。 均值,中位数,众数区别  1、平均数是通过计算得到的,因此它会因每一个数据的变化而变化。  2、中位数是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。  3、众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向. 2.2 数据的基本统计描述 2.2 数据的基本统计描述 均值,中位数,众数区别 2.2.2 度量数据散布:极差,四分位数,方差,标准差和四分位数极差 极差表示的是最大值和最小值的差 分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。 四分位

文档评论(0)

tt435678 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档