信息管理和信息系统第2章幻灯片.pptVIP

  • 3
  • 0
  • 约2.49万字
  • 约 117页
  • 2017-02-09 发布于河南
  • 举报
2.5.2 邻近结点模型 Navarro和Baeza-Yates提出了一种新的模型,该模型允许在相同文档的文本上定义独立分层(非扁平的)索引结构。每个索引都有严格的层次结构,即由章、节、段、页、行所组成,这些结构单元通常称之为结点,如下图所示。每个这样的结点都与一个文本区域相关。此外,两个不同的层次结构可能会涉及到重叠的文本区域。 对于涉及不同层次结构的用户查询而言,所汇集的结果只能由来自其中一个层次结构的所有结点形成。因此,最终结果不能由两个不同层次的结点所组成,这样做的目的是允许以较少的表达式获得较快的查询处理。然而应该考虑到,由于结构是层次型的,在结果集中允许出现来自于相同层次的嵌套文本区域。 * 2.5.2 邻近结点模型 结构化单元的层次索引和词的扁平索引 * 2.5.2 邻近结点模型 上图给出了一个具有4个层次的层次索引结构,它们分别对应于同一篇文档中的章、节、子节和子子节,图中还给出了词“大爆炸”的倒排列表。倒排列表中的项,列出了文档文本中所有出现单词“大爆炸”的位置。在这个层次结构上,每个结点指明了结构化单元(如章、节、子节、子子节)在本文中的位置。 * 2.5.2 邻近结点模型 查询语言允许为字符串检索指定正则表达式,通过名称(如搜索章节)来引用结构成分,也可以是它们的组合。从这种意义上来说,可以把这个模型看成是表达与高效之间的一种折中。查询语言的某些限制性表

文档评论(0)

1亿VIP精品文档

相关文档