utilizing dependency language models for dependency - 苏州大学.pptVIP

下载本文档

12
0
约7.74千字
约 51页
2017-09-06 发布于天津
举报

utilizing dependency language models for dependency - 苏州大学.ppt

utilizing dependency language models for dependency - 苏州大学

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 文档表示成向量每篇文档表示成一个基于tfidf权重的实值向量 ∈ R|V|. 于是，我们有一个 |V|维实值空间空间的每一维都对应词项文档都是该空间下的一个点或者向量极高维向量：对于Web搜索引擎，空间会上千万维对每个向量来说又非常稀疏，大部分都是0 * * 查询看成向量每一个查询也可以表示为一个高维稀疏向量。注意，为了简化问题，只考虑tf值，而不考虑idf 如：good - 1 movie-2 查询对应的向量不需要归一化（为什么自己思考） * * 向量空间下相似度的形式化定义先考虑一下两个点之间的距离倒数一种方法是采用欧氏距离但是，欧氏距离不是一种好的选择，这是因为欧氏距离对向量长度很敏感 * * 欧氏距离不好的例子尽管查询q和文档d2的词项分布非常相似，但是采用欧氏距离计算它们对应向量之间的距离非常大。. Questions about basic vector space setup? * * 采用夹角而不是距离来计算将文档按照其向量和查询向量的夹角大小来排序假想实验：将文档 d 复制一份加在自身末尾得到文档d′. d′ 是d的两倍很显然，从语义上看， d 和 d′ 具有相同的内容两者之间的夹角为0，代表它们之间具有

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

utilizing dependency language models for dependency - 苏州大学.pptVIP