- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 数据挖掘与商务智能 范勤勤 物流研究中心 . 第二章 认识数据 1 数据对象与属性类型 2 数据的基本统计描述 3 度量数据的相似性和相异性 . ? 数据对象与属性类型 . 4 属性及标称属性 什么是属性? ? 属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征 和变量可以互换的使用,属性可以是 标称的、二元的、序数的 或 数值的 。 标称属性 ? 标称意味着与名称相关。标称属性的值是一些符号或事物的名称 ? 如: hair_color( 头发颜色 ) 和 marital_status (婚姻状况)是描述人的两个特征。 hair_color 的可能值为黑色、棕色、淡黄色等, marital_status 的可能取值是单 身、已婚、离异和丧偶 ? 标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种 属性的均值或中位数是没有意义的,但可以用众数来表示 . 5 二元属性 二元属性 ? 二元属性是一种标称属性,只有两个类别或状态: 0 或 1 ,其中 0 通常表示该属性 不出现,而 1 表示出现。如果两种状态对应于 true 和 false 的话,二元属性又称布 尔属性。 ? 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是 对称 的。如:属性 gender 中的男、女。 ? 如果其状态的结果不是同等重要的,则称一个二元属性是 非对称 的。如: HIV 化 验的阴性、阳性结果。 . 6 序数属性及数值属性 序数属性 ? 序数属性是一种属性,其可能的值之间具有 有意义的序或秩 评定,但是相继值之 间的 差是未知的 ,其中心趋势可以用 众数 和 中位数 来表示。 ? 如: professional_rank( 职位 ) 可以按顺序枚举,如对于教师有助教、讲师、副 教授和教授 数值属性 ? 数值属性是定量的,即它是可度量的量,用 整数 或 实数值 表示。数值属性可以是 区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示 ? 区间标度属性用 相等的单位尺度 度量,比如温度 ? 比率标度属性是具有 固定零点 的数值属性,比如重量、高度 . 7 离散属性与连续属性 离散属性与连续属性 ? 离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性 hair_color 、 smoker 、 medical_test 和 drink_size 都有有限个值,因此是 离散的 ? 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以 互换使用 . ? 数据的基本统计描述 . 9 中心趋势度量 中心趋势度量:均值、中位数和众数、均值: N x x x x N x x N N i i ? ? ? ? ? ? ? ? ... 3 2 1 1 N N N N i i N i i i w w w x w x w x w w x w x ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 2 1 2 2 1 1 1 1 加权平均: 主要问题:对极端值很敏感 . 10 中心趋势度量 中位数 中列数 ? 数据集的最大值和最小值的平均值 众数 ? 集合中出现最频繁的值 ? 可能最高频率对应多个不同值,导致多个众数 ? 有序数据值的中间值 ? 适用于倾斜数据 . 11 度量数据散布 ? ? ? ? ? ? ? ? n i i n i i x N x N 1 2 2 1 2 2 1 ) ( 1 ? ? ? ? 方差和标准差 度量数据散布:极差、四分位数、方差、标准差和四分位数极差 ? 极差:极差( range ) =max()-min() ? 四分位数 ? 第一个四分位数 Q1 ? 第三个四分位数 Q3 ? 四分位数极差 IQR=Q3-Q1 ? 标准差是方差的平方根 . 12 五数概括 五数概括 ? 分布的五数概括由中位数 Q2 、四分位数 Q1 和 Q3, 最小和最大观测值组成, 按次序 Minimum 、 Q1 、 Median 、 Q3 、 Maximum 。 . 13 盒图 盒图 ? 一种流行的分布的直观表示。体现了五数概括: ? 盒的端点一般在四分位数上,使得盒的长度是四分位数极差 IQR ? 中位数用盒内的线标记 ? 盒外的两条线(称作胡须)延伸到最小( Minimum )和最大( Maximum ) . 14 盒图 盒图示例 ? 如图在给定的时间段 ALLElectronics 的 4 个销售部门的商品单价数据的盒图。对 于部门 1 ,我们看到销售商品单价的中位数是 80 美元, Q1 是 60 美元, Q3 是 100 美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值 175 和 202 都超过 IQR 的 1
文档评论(0)