数据挖掘概念与技术第二章.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术第二章要点

* 1. 方便抽样(accidental sampling):指用最容易找到的人或物作为研究对象;优点是简便易行,缺点是样本的代表性差 2. 配额抽样(quota sampling):是根据总体内有层次性的特点,利用总体内各层的构成比抽取与总体相似的样本 * 3. 主观抽样(purposive sampling):指研究者依据自己的专业知识和经验以及对调查总体的了解,有意识选取研究对象 4. 网络抽样(network sampling):利用社会网络的优势和朋友间具有共性的特点来进行抽样 * 检验水准,α( 犯假阳性错误的概率),如错误地把无效的治疗方案判为有效的危险性,一般错误定为0.05,也可定为0.01。 α越小,所需样本含量越大 检验效能( 1-β ) , (β)二类错误出现概率 , 犯假阴性错误的概率,如错误地把有效的治疗方案判为无效的危险性一般情况β=0.2或0.1或0.05,即80%、90%或95%把握度,把握度高,样本数就大。 * 总体标准差(σ): σ越大,观察值的变异程度大,所需的样本越大 容许误差的δ:既预计样本统计量和相应总体参数的最大相应误差控制在什么范围,常取可信区间长度之半。在其他条件确定的情况下,容许的误差越小,样本含量大;容许的误差越大,样本含量越小。 总体均值(population mean) : 样本均值(sample mean): 总体方差(population variance) : 样本方差(sample variance): 两个均值一样,但右边的要“胖”些,方差为左边的一倍 直方图 盒型图 茎叶图 其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。 散点图 饼图 条形图 数据的可视化:旨在通过图形表示清晰有效地表达数据 精彩待续 * 在统计学中,数据按变量值是否连续可分为连续数据与离散数据两种. 连续数据又称连续变量:在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。 所谓离散型数据,又称计数型:就是数据可以经过观测而知的,间断性的、可一个一个计算的 1、描述性统计学(descriptive statistics): 用局部数据或者不完整数据中指标性数字来表示所有数据。 2、推论统计学(inferential statistics):用(样本)数据来对(总体)事物做结论。 数据的中心(集中)趋势度量: 数据的度量散布: 设X1,X2,…,X是某数值属性X上的观测的集合 。 极差:是该集合中最大值Max()与最小值Min()之差。 分位数:把数据划分成基本上大小相等连贯集合的每一间隔上的点。 离群点:挑选落在第3个四分位数之上或第1个四分位之下到少1.5*IQR处的值。 五数概括(fiver-number summary): Minimum、Q1、Median、Q3、Maximum. 某观测值xi的标准得分定义为 在我们的例子中,张颖的标准得分为(90-78.53)/9.43=1.22,而刘疏的标准得分为(82-70.19)/7=1.69。 显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。 总体(population)是根据研究目的确定的具有相同性质的个体所构成的全体。 样本(sample)是从总体中随机抽取的部分观察单位 抽样(sampling) 指从总体抽取部分个体的过程 样本含量(sample size): 样本所包含观察单位的数目 * 一是要留意样本在总体中是否具有代表性, 二是样本容量必须足够大, 三是注意样本避免遗漏某一群体 一般地,如果从总体中按一定规则抽取n个个体进行观察(或试验),则称这n个个体为总体的一个样本(Sample),样本中所含个体的数目n称为样本容量(Sample Size),抽取一个样本的过程称为抽样(Sampling). 一般地,如果从总体中按一定规则抽取n个个体进行观察(或试验),则称这n个个体为总体的一个样本(Sample),样本中所含个体的数目n称为样本容量(Sample Size),抽取一个样本的过程称为抽样(Sampling). * 概率抽样法(probability sampling):调查者用客观、随机的方法抽取样本。 * 1、单纯随机:单纯随机抽样是指将所有的有限总体中的观察

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档