数据挖据概念与技术第二章.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术;2.1 数据对象与属性类型 2.2 数据的基本统计描述 2.3 数据的可视化 2.4 度量数据的相似性和相异性 2.5 小结 ; 数据集是由数据对象构成的。一个数据对象表示一个实体——在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。 数据对象用属性来描述。 数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,列对应于属性。 ;2.1.1 什么是属性 一个属性是一个域,表示一个数据对象的一个特征。 “属性”、“维度”、“特征”和“变量”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。 属性描述一个顾客对象,如:顾客ID,姓名,地址。 对给定的属性的可观察值被称为观察。刻画一个给定对象的属性集合被称为属性向量(或特征向量)。 ;2.1.2 标称属性 标称属性的值是事物的标号或者名称。每一个值表示类别、编码或者状态。因此标称属性被用来分类。值没有次序信息。在计算机领域,也可以称为枚举型。 举例如:发色和婚姻状态。发色可以是黑色,棕色,红色,灰色,白色。婚姻状态可以是单身、已婚、离异或者丧偶。这些都是标称属性。 ;2.1.3 二元属性 二元属性是一种标称属性,只有两个类别或状态:0或1,其中0表示该属性不出现,而1表示出现。二元属性又称布尔属性,对应true和false。 对 称:两种状态权重相等 性别 非对称:两种状态权重不等相等 疾病化验;2.1.4 序数属性 序数属性的可能值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。 例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+;职称:助理,副教授,教授 序数属性可以用来记录不能客观度量的主观质量评估 在调查中??用来排序。比如,参与者作为顾客,他们的满意度可以是:0:非常不满意,1 有点不满意,2 中立 3 满意 4 很满意 ;2.1.5 数值属性 数值型属性是定量的,是可测量的数值,为整数或实数。数值属性可以是区间标度的或比率标度的。 区间标度:用相等的单位度量, 有序,可定量评估 温度(排序 26度与21度年5度) 比率标度:具有故有的零点的数值属性 ,存在倍数,有序,可定量评估 货币量(100元人民币比50元人民币多2倍);2.1.6 离散属性与连续属性 机器学习通常把属性分成离散的或连续的 离散属性有有限的或者无限可数的值集合,可以用或不用整数表示。例如发色,是否吸烟,医学检查结果,饮料尺寸,都有有限的值,因此是离散的。 如果值不是离散的,则是连续的。数值属性或者连续属性是含义上是一样的。;2.2.1 中心趋势度量:均值,中位数,众数;?;2.2.1 中心趋势度量:均值,中位数,众数 众数:集合中出现最频繁的值,可以是多个 单峰,多峰。 经验关系式;均值,中位数,众数区别  1、平均数是通过计算得到的,因此它会因每一个数据的变化而变化。  2、中位数是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。  3、众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向.;2.2 数据的基本统计描述 ;2.2.2 度量数据散布:极差,四分位数,方差,标准差和四分位数极差 极差表示的是最大值和最小值的差 分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。 四分位数;2.2.2 度量数据散布:极差,四分位数,方差,标准差和四分位数极差 ;2.2.2 度量数据散布:极差,四分位数,方差,标准差和四分位数极差 分布的五数概括: Minimum, Q1, Median(Q2), Q3, Maximum 一个通用的鉴别可疑的离群点的规则是挑选出落在Q3以上或者Q1以下1.5*IQR以上的数据值;2.2.2 度量数据散布:极差,四分位数,方差,标准差和四分位数极差 盒图;2.2.3 数据的基本统计描述的图形显示 1 分位数图:单变量数据分布 2 分位数-分

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档