03 数据挖掘概述与聚类算法.pptVIP

  • 26
  • 0
  • 约1.02万字
  • 约 66页
  • 2017-09-05 发布于江苏
  • 举报
序数型变量 顾客id 职位 学历 c1 讲师 本科 c2 副教授 研究生 c3 教授 研究生 c4 讲师 本科 c1: 0, 0.5 c2: 0.5, 1 顾客id 学历 学历 c1 1 2 c2 2 3 c3 3 3 c4 1 2 混合类型的变量 一个数据库可能包含多种类型的变量,用以下公式计算对象i,j之间的相异度. 其中,p为对象中的变量个数 如果xif或xjf 缺失(即对象i或对象j没有变量f的值),或者xif = xjf =0,且变量f是不对称的二元变量,则指示项δij(f)=0;否则δij(f)=1 相似度计算 基于余玄的相似度计算 例如 相似度计算 顾客id 订单规模 订单金额 点击量 c1 0.00 0.00 0.55 c2 1.00 1.00 0.64 c3 0.89 0.93 0.36 c4 0.78 0.80 1.00 c5 0.67 0.93 0.00 c6 0.56 1.00 0.18 c7 0.22 0.67 0.36 相似度 0.41 0.99 0.90 0.74 0.98 0.93 距离 1.42 0.30 0.66 1.01 0.22 0.51 相似度计算 交易ID 产品 1 相机包,手机屏幕贴膜,滤镜 2 键盘保护膜,遥控器,滤镜

文档评论(0)

1亿VIP精品文档

相关文档