数据挖掘——第二章认识.ppt

  1. 1、本文档共112页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘——第二章认识

数据分布特征的描述 数据分布的特征 集中趋势的测度 定类数据:众数 定序数据:中位数和四分位数 定距和定比数据:平均数(均值) 众数、中位数和均值的比较 集中趋势 (Central tendency) 一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定 定类数据:众数(mode) 出现次数最多的变量值 用Mo表示 不受极端值的影响 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数值型数据 众数的不唯一性 众数的例子 定序数据:中位数(median) 排序后处于中间位置上的值 用Me表示 不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能用于定类数据 各变量值与中位数的离差绝对值之和最小,即 最小 中位数 中位数的例子(定序数据) 中位数的例子(数值型数据) 原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5 中位数的例子(数值型数据) 定序数据:四分位数(quartile) 排序后处于25%和75%位置上的值 用ML和MU表示 不受极端值的影响 主要用于定序数据,也可用于数值型数据,但不能用于定类数据 四分位数 四分位数 其中[ ]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上 四分位数的例子(定序数据) 四分位数的例子(数值型数据) 四分位数的例子(数值型数据) 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 四分位数的例子(数值型数据) 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 数值型数据:平均数(mean) 一组数相加后除以数据的个数而得到的结果,也称为均值 集中趋势的最常用测度值 易受极端值的影响 根据总体数据计算的,称为平均数,记为?;根据样本数据计算的,称为样本平均数,记为?x 简单平均数 加权平均数 加权平均数 简单平均数的大小只和变量值的大小有关 加权平均数的大小不仅受各组组中值(Mi)大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ): 1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ): 8 1 1 平均数的数学性质 几何平均数 几何平均数的例子 例 一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 众数、中位数和平均数的关系 众数、中位数、平均数的特点和应用 众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用 数据类型与集中趋势测度值 离散程度的度量 定类数据:异众比率 定序数据:四分位差 定距和定比数据:方差和标准差 相对离散程度:离散系数 离中趋势 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程

文档评论(0)

泰山之颠 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档