数据挖掘概述专用课件.ppt

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概述专用课件

敬请各位同学提出宝贵意见 非常感谢 3.常见的分类方法 常见的分类有:决策树、神经网络、支持向量机、遗传算法、粗糙集、贝叶斯等。 三、基于决策树的分类方法 例1.下表是用于构造分类模型的数据集,包括14个样本和5个属性:Outlook、Temperature、Humidity、Windy和Play,其中前4个属性是天气,最后一个属性是根据前4个属性的情况说明这样的天气状况是否适合比赛。各属性取值如下: Outlook:sunny(s),overcast(o),rain(r); Temperature:hot(h),mild(m),cool(c); Humidity:high(h),normal(n); Windy:false,true Play:Yes(y),no(n) 样本的p分位数xp 可以按如下方法求得: 将观察值按自小到大的顺序排列成:x(1)≤ x(2) ≤... ≤ x(n); 即:xp= 1。:若np不是整数,则只有一个数据满足定义的两点要求,这一数据位于大于np的最小整数处,即[np]+1处; 2。:若np是整数,则位于np和np+1位置的数据均符合要求,此时取这两个数的平均值作为xp; x([np]+1) 当np不是整数 (x(np)+x(np+1))/2 当np是整数 与分位数有关常用术语 一、极差:x(n)- x(1); median(x)= 二、中位数:p=0.5,此时xp称为中位数,记为median(x)其计算如下: x([n /2]+1) 当n为奇数 (x(n/2)+x(n/2+1))/2 当n整为偶数 三、第一四分位数Q1:p=0.25;第三四分位数Q3:p=0.75;四分位数极差IQR=Q3-Q1; 例1.下表是中国各省(市)国有单位的人均报酬,单位:元/年。分别计算p=0.25,0.5,0.75时的分位数及样本均值。   18392 18720 19298 20754 人均年收入   黑龙江 海南 江西 河北 地 区 21213 21345 21502 21591 21608 人均年收入 新疆 陕西 吉林 湖北 贵州 地 区 21960 21968 22044 22107 22275 人均年收入 安徽 甘肃 河南 山西 云南 地 区 22614 22711 22956 22956 24045 人均年收入 广西 内蒙古 湖 南 湖南 四川 地 区 24281 25060 26157 26986 26986 人均年收入 辽宁 重庆 宁夏 山东 山 东 地 区 27423 28681 32738 34509 36053 人均年收入 福建 青海 江苏 天津 广东 地 区 44813 45823 47587 47587 50311 人均年收入 西 藏 北京 浙江 浙 江 上海 地 区 解:n=34,n*0.75=8.5,Q3= 32738(江苏),同理,median=22956(湖北或湖南),Q1=21608(贵州),Q3-Q1=11130,样本均值为27501.59 箱线图如下: Q3 18392 黑龙江 Q1 Min Max 21608 贵州 32738 江苏 50311 上海 M 箱线图的说明:若中位数位于箱子中间,则数据分布较为对称;若Min离M的距离较Max离M的距离大,在表示数据分布向左倾斜;反之向右。 二、估计 2.1 点估计 2.1.1 矩估计与极大似然估计 另外一种常用的估计方法为折叠刀估计,它通过从一组观测值中忽略一个值来实现对参数的估计。 假设一个具有n个值的集合x={x1,x2,...,xn},对均值的单次估计为: 2.1.2 折叠刀估计 θ(i)=(x1+...+xi-1+xi+1+...xn)/(n-1) 对这些单次估计求平均值θ= (θ(1)+... θ(n))/n作为总统的均值估计。 例:设总体的分布率如下: 现有样本的10个观察值:3,3,2,2,1,2,1,2,3,3,分别用矩估计发、极大似然估计法和折叠刀估计法估计θ。 解:矩估计法 (1- θ)2 2θ(1- θ) θ2 Pk 3 2 1 X E(X)=3-2θ, 又样本均值为2.2, 因此θ得矩估计值为0.4 极大似然估计:L( θ)=。。。。, θ的极大似然估计值也是0.4 数据:3,3,2,2,1,2,1,2,3,3 折叠刀估计法 计算θ(1)=(3+2+2+1+2+1+2+3+3)/9=θ(2)= θ(9)=θ(10)=19/9; 因此对总体均值的估计为: ((19/9+20/9)*4+21/9*2

文档评论(0)

ustt002 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档