减缓网络用户检索负担的有效方法——可视化大规模应答结果集研究.pdfVIP

  • 3
  • 0
  • 约7.42千字
  • 约 8页
  • 2018-01-17 发布于广东
  • 举报

减缓网络用户检索负担的有效方法——可视化大规模应答结果集研究.pdf

减缓网络用户检索负担的有效方法 ——可视化大规模应答结果集 包冬梅 文章就用户在使用Web搜索工具时常常要面对大规模的应答结果集这样一个问题,指出 在网络信息检索中可视化组织显示大规模应答结果集是减缓用户检索负担、提升网络信息检 索效率的有效方法,并举实例说明。 问题,提高信息查询结果的精度,提高检索的有效性成了太家关注的一个热点。本文就如何有 效地组织、排序和显示web大规模应答结果集作一浅析。 1背景 Web信息检索过程本质上是人与web信息环境之间的一种交互过程。它包含两方面的 的主要问题还是归结为如何有效地进行Web信息的组织,以及获得一个与查询相关的结果集 理层(信息组织);检索过滤层;检索结果的后处理和显示层。 其实,用户利用搜索引擎进行信息查询时,通常并不十分关注返回结果的多少,而是看结 果是否和自己的需求吻合。从追求检索效率的角度来分析,用户和系统更注重的是检索精度 (检准率)的提高。搜索引擎的检索精度包含两个方面的涵义:一方面体现了搜索引擎对不相 关网页的抗干扰能力,另一方面则表示搜索引擎对检索结果的排序能力。而在网络环境下,检 索结果的排序能力比以往任何时候都显得重要。 而根据目前的网络检索技术水平,用户往往要面临因为一个检索主题太过通俗而产生大 规模(成千上万)应答结果集的问题。搜索引擎的检索结果通常过于庞大,结果中包含了很大 比例的与用户查询不相关的文档,相关文档和不相关文档混杂在一起,用户必须逐个地浏览才 RisvikFrom oftheFASTsearch ①Knut description engine.http://www.infonortics sh00/risvikjIles/frame.htm 269 能找到相关的文档。特别是当返回结果数目巨大的时候,这个问题尤其突出。 图1 web搜索引擎信息组织和检索的3个层次 在过去几年中,国内外研究者从概率论和信息计量学角度对检索结果的相关度计算进行 了大量的研究,通过评分和评级(星级显示)对文档进行相关度排序,在一定程度上缓解了用 户处理检索结果时的压力和负担。但是,目前的排序和评分评级算法只能提供一些排序编号 或相对较高层次的表示匹配程度的百分比或星级,而不可能告诉用户这些编号是怎么产生的, 这些评分是如何计算的,因此我们说这种排序方法对用户而言是不透明的。 2 Web检索系统处理大规模查询结果集的一般方法 一般的,web搜索引擎的检索结果是按文档与查询的相关度从高到低的顺序排列的。目 前的相关度排序方法基本上都采用了基于Web文档内容的方法,即考虑用户提问中的查询项 在文档中出现的情况,包括查询项的出现频率、位置等因素,即所谓的“位置/频率法”。此外, 还出现了利用Web文档的超文本结构的检索结果排序的方法。 2.1 矢量模型相似性度量检索结果排序模式 许多搜索引擎采用各种形式不同的布尔或矢量模型来对查询结果进行排序。传统的矢量 模型和ff-idf加权策略是现在比较普遍采用的~种检索和结果排序处理方法。 矢量模型通过分派非二值权重给查询和文档中的索引项来计算系统中的每个文档与用户 的查询请求之间的相似程度。对给定集合中的每篇文献通过标引产生的一个特征项集定义- 个文献空间。在这个文献空间内,用向壹D来表示某一文献,则该向量在这个文献空间各个 轴上的分量就是相应的表示该文献的各个项的权重,用户查询也表示为该文献空闭中的向量 Q,两者的相似程度可用向量之间的余弦夹角值来度量,夹角越小,说明相似度越高。矢量模 型相似度计算公式如下: 玉K。‘既 Sim(Q,D)=C0$(Q,D) 厨一·厨 矢量模型通过对检出文档按照相似度降序排列的方式,来实现文档与查询项的部分匹配。 但是我们在web检索实践中常常发现:相关性并不全部与检索结果集中文档记录的排序次序 完全一致;相关度

文档评论(0)

1亿VIP精品文档

相关文档