数据挖掘整理.ppt

数据挖掘整理

四、数据对象之间的相异度和相似度;1、简单属性的相似度和相异度;1、简单属性的相似度和相异度;可以计算学生身高的相异度矩阵如下:;;;;例2.设两个顾客x和y购买的商品如下,计算 它们的相似系数SMC和J。;;例3.两个文档向量x和y如下,分别计算其余弦相似度cos(x,y)和EJ;;例如,以毫米为单位,20个人的身高通常不会重复,但如果以分米为单位,则某些人很可能具有相同的身高。此外,如果使用一个唯一的值表示遗漏值,该值通常用众数。;样本的p分位数xp 可以按如下方法求得:;与分位数有关常用术语;例1.下表是中国各省(市)国有单位的人均报酬,单位:元/年。分别计算p=0.25,0.5,0.75时的分位数及样本均值。;解:n=34,n*0.75=8.5,Q3= 32738(江苏),同理,median=22956(湖北或湖南),Q1=21608(贵州),Q3-Q1=11130,样本均值为27501.59 ;;例:设总体的分布率如下:;数据:3,3,2,2,1,2,1,2,3,3;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

文档评论(0)

1亿VIP精品文档

相关文档