- 25
- 0
- 约1.12万字
- 约 47页
- 2018-07-06 发布于上海
- 举报
类描述:特征化和比较的表示 类特征化和类比较是形成类描述的两个方面,我们可以通过综合类特征化规则和类区分规则来形成类描述规则。 A、量化特征化规则 必要条件 B、量化区分规则 充分条件 C、整合A与B得到量化的类描述规则 充要条件 量化的类描述规则举例如下: 用量化的描述规则表达最终的概化关系示例 对于上述交叉表,可以直接用量化描述规则来表示 上述量化规则的具体含义是说明99年AllElectronics公司的TV和计算机销售情况:如果一商品在欧洲售出,则其为TV的概率为25%,该公司40%的TV在欧洲售出,也就是说该公司60%的TV在美洲售出;而如果一个商品在欧洲售出,则其为Computer的概率为75%,同时该公司30%的Computer在欧洲售出,也就是说70%在美洲售出。 特别注意:d-weight所描述的是量化的区分规则,它是目标类和对比类之间被同一个概化元组所覆盖的元组数。 挖掘描述统计计量在大型数据库中进行特征或类比较等的概念挖掘时,常引用到各种对数据的统计计量来描述挖掘结果 对于数据挖掘任务,用户经常关心的数据特征包括数据的中心趋势和离散特征 反映中心趋势的度量包括:mean, median, mode 和 midrange(中列数)。其在数据分布非常集中时广泛应用。 反映数据离散度量包括:quartiles(四分位数), outliers(孤立点), variance(标准差) 和其他度量,面对数据分布存在大范围跨度的时候需要关心离散度,反应数据分布特征,哪个区间有哪些分布,有多少数据。 关系数据库中,系统提供了以下聚集函数:count(), sum(), avg(), max(), min() 在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何利用关系数据库现有的函数来计算上述两类用户感兴趣的度量值,因为要考虑到相关统计计量的计算复杂度(这样,涉及到排序的函数就不适用),需要结合现有的关系数据库可调用的函数来提高效率。 反映度量中心趋势的统计量包括: 算术平均值 加权算术平均 ( 是权重) 中位值:使用一个近似的计算来度量 如果值的个数n是奇数,则中位数(median)是有序集合的中间值,否则它是中间两个数的平均值(所以要先排序!难!) SQL里面order by语句,简单却耗时 不用sql里的order by,而用median插值法(interpolation)来近似计算 模(mode) 表示数据集中出现频率最高的值 单模态、双模态(两个不同数值同时出现最高频率)、三模态、多模态和没有模(所有数据都只出现一次)的情况,计算时候先group by,然后再order by,其复杂度也很高 因此单模态近似值计算模的经验公式: 中列数:最大值和最小值的平均 反映度量数据离散度的统计量 (1)(数据分布很不规则时候需要关注离散度,例如倾斜分布时候,其平均值、中位值都没有意义) 最常用度量:五数概括(基于四分位数)、中间四分位数区间和标准差 四分位数、孤立点和盒图 百分位数(percentile):第k个百分位数是具有如下性质的值x:数据项的k%在x上或者低于x 四分位数有两个:Q1 (25th percentile,即第25个百分位数), Q3 (75th percentile) 中间四分位数区间(IQR): IQR = Q3 – Q1 (容纳了50%的数据) 对倾斜分布(最高点左右两侧的分布不对称叫做倾斜分布)的描述,除了IQR还常需两个四分位数Q1和Q3,以及中位值M(即第50个百分位值)。一个识别孤立点的常用规则是:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值,我们认为它偏离了主流的数据分布 反映度量数据离散度的统计量 (2) 五数概括: min, Q1, M, Q3, max,可大概估计数据分布特征 盒图:数据分布的一种直观表示。 方差和标准差 方差s2:n个观测之x1,x2...xn的方差是下式,其表示数据与平均值之间的偏离程度 标准差s是方差s2的平方根 s是关于平均值的离散的度量,因此仅当选平均值做中心度量时才有意义,才会使用 在数据挖掘中面对数据仓库时,其计算复杂度低,容易实现 所有观测值相同则 s=0,否则 s0 方差和标准差都是代数度量 盒图——示例 该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图 在盒图中: 端点在四分位数上,使得盒图的长度是IQR 中位数M用盒内的线标记 胡须延伸到最大最小观测值 分店1 中位数$80 Q1: $60 Q3: $100 使用
您可能关注的文档
最近下载
- 江苏省城镇道路工程分部DL(2023新规范版).pdf VIP
- 咏梅钢琴谱钢琴简谱 数字谱 钢琴双手简谱.pdf VIP
- 植物志电子书链接.pdf VIP
- 01 关于印发公司专业技术职务任职资格评定管理办法、专业技术职务任职资格考核认定(确认)办法和工程系列专业技术职务任职资格评审实施细则的通知(中电建人〔2019〕1号).pdf VIP
- 2025年数字藏品市场与实体经济联动发展模式研究.docx VIP
- 商业银行信息科技风险管理系统建设实践.docx VIP
- 中子寿命测井.ppt VIP
- 护理三基第5版(完整版).doc VIP
- 电化学储能电站运行规程.docx VIP
- 驱动基因阳性非小细胞肺癌脑膜转移临床诊疗中国专家共识(2026版).pdf VIP
原创力文档

文档评论(0)