utilizing dependency language models for dependency - 苏州大学.pptVIP

  • 12
  • 0
  • 约7.74千字
  • 约 51页
  • 2017-09-06 发布于天津
  • 举报

utilizing dependency language models for dependency - 苏州大学.ppt

utilizing dependency language models for dependency - 苏州大学

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 文档表示成向量 每篇文档表示成一个基于tfidf权重的实值向量 ∈ R|V|. 于是,我们有一个 |V|维实值空间 空间的每一维都对应词项 文档都是该空间下的一个点或者向量 极高维向量:对于Web搜索引擎,空间会上千万维 对每个向量来说又非常稀疏,大部分都是0 * * 查询看成向量 每一个查询也可以表示为一个高维稀疏向量。注意,为了简化问题,只考虑tf值,而不考虑idf 如:good - 1 movie-2 查询对应的向量不需要归一化(为什么自己思考) * * 向量空间下相似度的形式化定义 先考虑一下两个点之间的距离倒数 一种方法是采用欧氏距离 但是,欧氏距离不是一种好的选择,这是因为欧氏距离对向量长度很敏感 * * 欧氏距离不好的例子 尽管查询q和文档d2的词项分布非常相似,但是采用欧氏距离计算它们对应向量之间的距离非常大。. Questions about basic vector space setup? * * 采用夹角而不是距离来计算 将文档按照其向量和查询向量的夹角大小来排序 假想实验:将文档 d 复制一份加在自身末尾得到文档d′. d′ 是d的两倍 很显然,从语义上看, d 和 d′ 具有相同的内容 两者之间的夹角为0,代表它们之间具有

文档评论(0)

1亿VIP精品文档

相关文档