- 3
- 0
- 约 4页
- 2017-05-13 发布于河南
- 举报
--北京大学计算机网络体系结构课程doc.doc
北京大学计算机网络体系结构课程
Lucene 研究报告:
Lucene的排序模型向量空间模型与BM25模型比较报告
北大深圳研究生院信息工程学院
组长:胡钊
组员:霍佳森 闫应威 王超
题目:Lucene的排序模型向量空间模型与BM25模型比较报告
摘要:
搜索引擎中的排序算法在信息检索是一个重要的研究内容,一般来讲用户最关注前面的信息,排在后面的内容往往不太关注,一个好的排序算法可以将用户需要的信息呈现出来,使用户能够更快的得到所需要的信息。本文通过分析lucene的VSM排序算法以及实现bm25算法,通过数据查询,使用MAP方法来评价两种排序算法。
简介:
试验使用方法:
空间向量模型(Space Vector Model)
每一个文档 j 能够被看作一个向量,每个term 是一个维度,取值为log-scaled tf.idf。
向量d1和d2的 “closeness”可以用它们之间的夹角大小来度量,向量按长度归一化。
2 BM25模型
BM算法的全称是“Best Match”,用来做搜索的相关度评分BM25公式:
IDF公式:
BM25公式: score(D,Q):就是我们所要计算的评分,即为[给定搜索内容]Q在[给定文档]D中的相关程度,分数越高表示相关度越高。 q:[给定搜索内容]Q中的语素,英文的话就是单词,中文的话需要先进行简单的切词操作。 f(qi
原创力文档

文档评论(0)