网站大量收购独家精品文档,联系QQ:2885784924

第五章-概念描述:特征化与比较讲解.ppt

  1. 1、本文档共107页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章-概念描述:特征化与比较讲解

* 基于规则的表示方法 目标数据集中一个较大的d_weight值意味着相应的概念(概化后某一数据行)涵盖较多的目标数据集中的初始数据行;反之,则意味着该概念涵盖较多的非目标(对比)数据集中的初始数据行。 示 例 背景: 设在前面所进行的比较概念描述中,所获得的一个概化后的数据行为“major=“科学”and age_range=“25-30” and gpa=“良””的有关内容如表9所示。 表9 研究生与本科生的其中一个比较结果 示 例 从表9得到: major=“科学”and age_range=“25-30” and gpa=“良” 该数据行相对目标数据集的d_weight为: 90/(210+90)=30% 而相对对比数据集的d_weight为: 210/(210+90)=70% 即:若一个学生专业为“科学”,年龄在25-30之间且gpa为良,则根据现有数据,有30%的可能为研究生,而70%的可能为本科生。 5.5 在大型数据库中挖掘描述统计度量 关系数据库系统通常提供了5个内置的合计函数:count(), sum(), avg(), max() 和 min()。这些函数可以对数据进行高效运算,仍可用于多维数据的统计度量。 除此之外,在许多挖掘任务中,需要了解更多有关数据的中心趋势(central tendency)和数据分布(data dispersion)等数据特点。 中心趋势:均值(average)、中位数(median)、模(mode)和中间范围(midrange); 数据分布:四分位数(quartiles)、方差、标准差等。 (1)中心趋势度量指标 1)算术平均值: 设 平均值对应于关系数据库系统提供的内部聚集函数average(SQL中为avg())。 2)加权平均值: 权重反映了相应值的重要性、显著性或发生频率。 (1)中心趋势度量指标 3)中位数(median): 对于倾斜数据,度量中心趋势的最好的指标是中位数M。 先对数据进行排序,如果数据值的个数n是奇数,则中位数是有序集合的中间值; 否则,如果n为偶数,中位数为中间两个数的平均值。 4)众数:模(mode) 一组数据集的模是集合中出现频率最高的数据。 有时,一个集合中可能同时出现多个最高频率的数据,导致多个模态。 反之,如果一个数据集中每个数值仅出现一次,则该数据集是无模数的。 (2)数据离散趋势度量指标 数值数据趋向于离散的程度称为数据的离散度或方差。数据离散度的最常用度量是四分位数和标准差。 1)四分位数: 数值序下的数据集合的第k个百分位数是具有如下性质的值x:数据项的百分之k在x上或低于x。 中位数M对应的是第50个百分位数。 除中位数外,最常用的百分位数是四分位数。第一个四分位数记做Q1,是第25个百分位数;第三个百分位数记做Q3,是第75个百分位数。 (2)数据离散趋势度量指标 数值数据趋向于离散的程度称为数据的离散度或方差。数据离散度的最常用度量是四分位数和标准差。 1)四分位数: 四分位数与中位数一起给出中心、离散和分布形状的某种指示。 如,第一个和第三个四分位数之间的距离是常用的数据离散趋势的度量,给出被数据的中间一半所覆盖的范围,称为中间四分位数区间IQR: IQR=Q3-Q1 识别孤立点:落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值。 四分位数的表示: 盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分位数Q1 、中位数、上四分位数Q3和最大值 盒的长度等于IQR; 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和最大观测值。 从下到上五条线分别表示最小值、下四分位数Q1 、中位数、上四分位数Q3和最大值 盒的长度等于IQR; 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和最大观测值。 (2)数据离散趋势度量指标 2)方差和标准差: n个观察值x1,x2,…,xn的方差是: 标准差s是方差s2的平方根。 S度量的是关于平均值的离散,仅当选择平均值作为中心度量时使用。 当不存在离散时,即所有的观察值都相同时,s=0。否则s0。 * 属性归纳的原则及结果的表示方法。 如何利用信息增益法进行属性相关性分析? 大型数据库中,常见的度量方法有哪些? 复习与思考问题 * * * * * 天 气 湿 度 风 晴 雨 多云 高 正常 有风 无风 Y N N Y Y ID3算法致力于建立这样形式的决策树 决策树是类似流程图的倒立的树型结构。 最顶层节点为根节点,是整个决策树的开始; 树的每个内部节点表示在一个属性上的测试,其每个分支代表一个测试输出; 树的每个叶节点代表一个类别。 天 气 湿 度 风 晴 雨 多云 高 正常

文档评论(0)

4477704 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档