数据挖掘相关资料.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
例如,以毫米为单位,20个人的身高通常不会重复,但如果以分米为单位,则某些人很可能具有相同的身高。此外,如果使用一个唯一的值表示遗漏值,该值通常用众数。 1.1.2 百分位数 百分位数的定义:设有容量为n的样本观察值想x1,x2,x3,...,xn,样本的p分位数(0p1)是指满足如下性质的xp : A:至少有np个观察值小于或等于xp。 B:至多有n(1-p)个观察值大于或等于xp。 第三十页,共六十四页。 样本的p分位数xp 可以按如下方法求得: 将观察值按自小到大的顺序排列成:x(1)≤ x(2) ≤... ≤ x(n); 即:xp= 1。:若np不是整数,则只有一个数据满足定义的两点要求,这一数据位于大于np的最小整数处,即[np]+1处; 2。:若np是整数,则位于np和np+1位置的数据均符合要求,此时取这两个数的平均值作为xp; x([np]+1) 当np不是整数 (x(np)+x(np+1))/2 当np是整数 第三十一页,共六十四页。 与分位数有关常用术语 一、极差:x(n)- x(1); median(x)= 二、中位数:p=0.5,此时xp称为中位数,记为median(x)其计算如下: x([n /2]+1) 当n为奇数 (x(n/2)+x(n/2+1))/2 当n整为偶数 三、第一四分位数Q1:p=0.25;第三四分位数Q3:p=0.75;四分位数极差IQR=Q3-Q1; 第三十二页,共六十四页。 例1.下表是中国各省(市)国有单位的人均报酬,单位:元/年。分别计算p=0.25,0.5,0.75时的分位数及样本均值。 地 区 上海 浙 江 浙江 北京 西 藏 人均年收入 50311 47587 47587 45823 44813 地 区 广东 天津 江苏 青海 福建 人均年收入 36053 34509 32738 28681 27423 地 区 山 东 山东 宁夏 重庆 辽宁 人均年收入 26986 26986 26157 25060 24281 地 区 四川 湖南 湖 南 内蒙古 广西 人均年收入 24045 22956 22956 22711 22614 地 区 云南 山西 河南 甘肃 安徽 人均年收入 22275 22107 22044 21968 21960 地 区 贵州 湖北 吉林 陕西 新疆 人均年收入 21608 21591 21502 21345 21213 地 区 河北 江西 海南 黑龙江   人均年收入 20754 19298 18720 18392   第三十三页,共六十四页。 解:n=34,n*0.75=8.5,Q3= 32738(江苏),同理,median=22956(湖北或湖南),Q1=21608(贵州),Q3-Q1=11130,样本均值为27501.59 箱线图如下: Q3 18392 黑龙江 Q1 Min Max 21608 贵州 32738 江苏 50311 上海 M 箱线图的说明:若中位数位于箱子中间,则数据分布较为对称;若Min离M的距离较Max离M的距离大,在表示数据分布向左倾斜;反之向右。 第三十四页,共六十四页。 二、估计 2.1 点估计 2.1.1 矩估计与极大似然估计 另外一种常用的估计方法为折叠刀估计,它通过从一组观测值中忽略一个值来实现对参数的估计。 假设一个具有n个值的集合x={x1,x2,...,xn},对均值的单次估计为: 2.1.2 折叠刀估计 θ(i)=(x1+...+xi-1+xi+1+...xn)/(n-1) 对这些单次估计求平均值θ= (θ(1)+... θ(n))/n作为总统的均值估计。 第三十五页,共六十四页。 例:设总体的分布率如下: 现有样本的10个观察值:3,3,2,2,1,2,1,2,3,3,分别用矩估计发、极大似然估计法和折叠刀估计法估计θ。 解:矩估计法 X 1 2 3 Pk θ2 2θ(1- θ) (1- θ)2 E(X)=3-2θ, 又样本均值为2.2, 因此θ得矩估计值为0.4 极大似然估计:L( θ)=。。。。, θ的极大似然估计值也是0.4 第三十六页,共六十四页。 数据:3,3,2,2,1,2,1,2,3,3 折叠刀估计法 计算θ(1)=(3+2+2+1+2+1+2+3+3)/9=θ(2)= θ(9)=θ(10)=19/9; 因此对总体均值的估计为: ((19/9+20/9)*4+21/9*2)/10=19.8/9; θ(3)=(3+3+2+1+2+1+2+3+3)/9= θ(4)= θ(6)=θ(8)=2

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档