数据挖掘第二章分解.pptVIP

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 认识数据 数据对象与属性类型 数据对象——代表一个实体 例如:大学数据库中,学生、教授、教务人员等属于对象 数据属性——代表对象的一个特征 例如:学生的学号、姓名、成绩等为属性 属性 1.属性也叫维、特征、变量。如学生学号。 2.一组属性叫属性向量或特征向量。 3.给定属性的观测值称为观测。 4.涉及一个属性的数据分布称为单变量的。双变量分布涉及两个属性。 5.属性的类型分为标称的、二元的、序数的、数值的。 标称属性 标称属性意味“与名称相关”。 标称属性的值是符号或者事物名称。 它的值没有序列意义。 例:属性“头发颜色”的值是:红色、黄色、黑色、白色(可以用0表示红色,1表示黄色等,但是这些数值没有运算意义)。 二元属性 二元属性是一种标称属性,且只有0,1两值。 0代表没有,1代表有,也称为布尔属性,0=false 1=true。 例:属性:抽烟的值为1表示抽烟,0表示不抽。 有相同权重的0,1状态称为对称的,如性别。否则称为非对称的。 序数属性 序数属性的值具有有意义的序和秩,但是相继值之间的差是未知的。 例:快餐店的饮料有小、中、大杯。它们有次序的意义,但是不能计算大杯比中杯大多少。这种属性是序数属性。 即:序数属性是定性的,不是定量的。 数值属性 数值属性是定量的,即用数值表示的。 可以是区间标度的、比率标度的。 区间标度属性用相等的单位尺度度量。如温度、年份。但是它没有真正的零点,因为0度不代表没有温度。 比率标度属性是具有零点的数值属性。如工作年限等。 离散属性和连续属性 离散属性 有限或无限可数个值;可以具有有效值;如头发颜色、年龄、顾客数量均是离散的。 连续属性 如果不是离散的,则为连续的;又称为数值属性;一般用浮点变量表示连续属性。 中心趋势度量 度量数据中心趋势 包括均值、中位数、众数和中列数。 均值 均值 加权均值 截尾均值:丢弃高低极端值后的均值,一般丢掉高端低端各2%。 例 中位数 中位数是有序数据的中间值。 如果数据是奇数,则中位数是中间值。 如果数据是偶数,中位数是中间两个值和它们之间的任意值,如果是数值属性,则中位数是中间两值的平均值。前例中位数为(52+56)/2=54。 插值计算中位数近似值: 众数 集合中最频繁出现的值。 一个两个三个众数分别称为单峰的、双峰的、三峰的。两个或以上一般称为多峰的。 每个数据仅出现一次,则没有众数 mean均值,mode众数,median中位数。 前例众数是双峰的,为52,70 中列数 数据的最大值和最小值的平均值。 前例中列数是(30+110)/2=70 数据的对称性 度量数据散布 数值数据散布或发散的度量 包括极差、四分位数、方差、标准差和四分位数极差。 极差、四分位数、四分位数极差 极差是集合最大值与最小值之差 将一个数据集划分为基本上大小相等的四部分的数称为四分位数。它有3个分位数。 四分位数极差 IQR=Q3-Q1 前例的3个四分位数 是第3 6 9个值,四分 位数极差是62-47=16 五数概括 Q1、中位数、Q3不包含两个端点,将最小值和最大值加入,由这五个数组成的观测值称为五数概括。 分布的五数概括按次序,最小、Q1、中位值、Q3、最大值写出。 盒图 盒图 例 标准差和方差 方差: 标准差:观测值的标准差是方差的平方根。 标准差是发散性的度量,度量关于均值的发散,当不存在发散时,所有观测值均等于均值,方差为0。 基本统计描述的图形显示 研究基本统计描述的图形显示 包括分位数图、分位数-分位数图、直方图、散点图。 分位数图 分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先,它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次,它绘出了分位数信息(见2.2.2节)。对于某序数或数值属性X,设xi(i=1,…,N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约fi×100%的数据小于值xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi×100%小于值xi。注意,百分比0.25对应于四分位数Q1,百分比0.50对应于中位数,而百分比0.75对应于Q3。 令 这些数从1/2N(稍大于0)到1-1/2N(稍小于1),以相同的步长1/N递增。在分位数图中,xi对应fi画出。这使得我们可以基于分位数比较不同的分布。例如,给定两个不同时间段的销售数据的分位数图,我们一眼就可以比较它们的Q1、中位数、Q3以及其他fi值。 分位数图 分位数-分位数图 分位数-分位数图(quantile-quantile plot)或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可

文档评论(0)

a336661148 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档