第八章聚类分析.pptVIP

  • 25
  • 0
  • 约小于1千字
  • 约 56页
  • 2017-06-10 发布于四川
  • 举报
第八章 聚类分析;8.1 什么是聚类分析;;8.2 聚类分析中的数据类型;;;;;;;二元变量 一个二元变量只有两个状态:0 或 1,0 表示该变量为空,1 表示该变量存在。 二元变量的可能性表 q 是对对象 i 和 j 值都为 1 的变量的数目,r 是在对象 i 中值为 1,在对象 j 中值为 0 的变量的数目,s 是在对象 i 中值为 0,在对象 j 中值为 1 的变量的数目,t 是在对象 i 和 j 中值都为 0 的变量的数目。变量的总数是 p,p=q+r+s+t。;;;例:二元变量之间的相异度:假设一个病人记录表包含属性 name, gender, fever, cough, test-1, test-2, test-3, 和 test-4,这里的 name 是对象标识,gender是对称的二元变量,其余的属性都是非对称的二元变量。 大部分为二元属性的关系表 假设对象之间的距离只基于非对称变量来计算。根据Jaccard系数公式: d(jack,mary) = (0+1)/(2+0+1) = 0.33 d(jack,jim) = (1+1)/ (1+1+1) = 0.67 d(jim,mary)=(1+2)/(1+1+2) = 0.75 上面的值显示 Jim 和 Mary 不可能有相似的疾病,因为他们有着最高的相异度。在这三个病人中,Jack 和 Mary 最可能有

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档