第2章数据资料讲解.pptVIP

  • 1
  • 0
  • 约8.05千字
  • 约 77页
  • 2019-12-01 发布于天津
  • 举报
SMC vs Jaccard: 例子 x = 1 0 0 0 0 0 0 0 0 0 y = 0 0 0 0 0 0 1 0 0 1 f00 = 7 f01 = 2 f10 = 1 f11 = 0 SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (0+7) / (2+1+0+7) = 0.7 J = (f11) / (f01 + f10 + f11) = 0 / (2 + 1 + 0) = 0 余弦相似度 文档用向量表示,向量的每个属性代表一个特定的词(术语)在文档中出现的频率。当然,实际情况要复杂得多,因为需要忽略常用词,并使用各种技术处理同一个词的不同形式、不同的文档长度以及不同的词频。 尽管文档具有数以百千计或数以万计的属性(词),但是每个文档都是稀疏的,因此,文档的相似性度量不仅应当像Jaccard度量一样需要忽略0-0匹配,而且还必须能够处理非二元向量。 余弦相似度 If d1 and d2 are two document vectors, then cos( x, y ) = (x ? y) / ||x|| ||y|| , Example: x = 3 2 0 5 0 0 0 2 0 0 y = 1 0 0

文档评论(0)

1亿VIP精品文档

相关文档