最新信息检索语言与技术.pptVIP

  • 6
  • 0
  • 约1.53万字
  • 约 10页
  • 2018-04-28 发布于湖北
  • 举报
最新信息检索语言与技术.ppt

从文本到向量空间(vector space) * ewfew 文档的向量表示示例 假定有三个项目: “葡萄”,“美酒”,“夜光杯” 假定以项目在文本中的出现次数为项目的权值 葡萄T1 美酒T2 夜光杯T3 d1 2 3 5 d2 3 7 2 q 0 0 2 * ewfew 计算向量之间的相似程度 向量间相似程度的不同度量方法 Inner product Dice coefficient Cosine coefficient Jaccard coefficient 在上面的例子中,如何度量q跟d1相似还是跟d2相似? * ewfew 夹角余弦:相似程度的度量方法之一 * ewfew 夹角余弦计算示例 * ewfew 索引项权值的计算(term weight) 权值的直观含义: 一个项目对于一个文本的重要程度 即一个项目在多大程度上可以将这个文档与其他文档区别开 计算权值的两种简单方式: (1)项目-出现/不出现:1或0 (2)项目-出现的次数:0,1,2,… 需要更好的加权方法 (3)tf.idf加权法(term frequency ?inverse document frequency) 项频率 逆向文档频率 * ewfew tf.idf 加权 Term freque

文档评论(0)

1亿VIP精品文档

相关文档