信息管理和信息系统第2章幻灯片.pptVIP

下载本文档

3
0
约2.49万字
约 117页
2017-02-09 发布于河南
举报

信息管理和信息系统第2章幻灯片.ppt

2.5.2 邻近结点模型 Navarro和Baeza-Yates提出了一种新的模型，该模型允许在相同文档的文本上定义独立分层（非扁平的）索引结构。每个索引都有严格的层次结构，即由章、节、段、页、行所组成，这些结构单元通常称之为结点，如下图所示。每个这样的结点都与一个文本区域相关。此外，两个不同的层次结构可能会涉及到重叠的文本区域。对于涉及不同层次结构的用户查询而言，所汇集的结果只能由来自其中一个层次结构的所有结点形成。因此，最终结果不能由两个不同层次的结点所组成，这样做的目的是允许以较少的表达式获得较快的查询处理。然而应该考虑到，由于结构是层次型的，在结果集中允许出现来自于相同层次的嵌套文本区域。 * 2.5.2 邻近结点模型结构化单元的层次索引和词的扁平索引 * 2.5.2 邻近结点模型上图给出了一个具有4个层次的层次索引结构，它们分别对应于同一篇文档中的章、节、子节和子子节，图中还给出了词“大爆炸”的倒排列表。倒排列表中的项，列出了文档文本中所有出现单词“大爆炸”的位置。在这个层次结构上，每个结点指明了结构化单元（如章、节、子节、子子节）在本文中的位置。 * 2.5.2 邻近结点模型查询语言允许为字符串检索指定正则表达式，通过名称（如搜索章节）来引用结构成分，也可以是它们的组合。从这种意义上来说，可以把这个模型看成是表达与高效之间的一种折中。查询语言的某些限制性表

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息管理和信息系统第2章幻灯片.pptVIP