信息检索基础理论山东师范大学管理科学与工程学院资料.ppt

信息检索基础理论山东师范大学管理科学与工程学院资料.ppt

* “相关性范畴”概念,把检索结果分别归入4个范畴:无用信息(不相关、死链、重复链接)、技术上相关、潜在相关和完全相关四个范畴,通过对不同范畴的检索结果赋予不同的权值计算查准率,并在此基础上提出“前x命中记录查准率”P(x)的概念,用来反映检索工具在前x个检索结果中向用户提供相关信息的能力。 * 1999年被测试的11种搜索引擎中查询到网页最多的前三名是Northern Light、Snap、AltaVista,没有任何一种搜索引擎可以包罗超过16%的网上信息资源,搜索引擎 * 倒排文件(Inverted File) 每个文档都可以用一系列关键词来表示,从检索目的来说,这些关键词描述了文档的内容。只要找到文档,便可以找到文档中的关键词。反过来,如果按关键词建立到文档的索引,便可以根据关键词快速地检索到相关文档。具体地,关键词被存储在索引文件(index file)中(比如,按字母顺序存储),对于每个关键词,都有一个指针链表,该表中的每个指针指向与该关键词相关的某个文档,所有指针链表构成置入文件(posting file)。这种倒排文件的方法几乎被当前所有的商用IR系统所采用[61]。 * 为使存贮的信息能被检出,信息人员需对入存的信息进行标引(Indexing)。标引是将信息中具有检索特征的词语或标志(专业上称为索引点)抽出制成索引(Index)的过程,按技术特点,标引可分为手

文档评论(0)

1亿VIP精品文档

相关文档