桂小林主编《物联网技术导论》课件V1.ppt

6.4 海量数据的快速检索技术 6.4.1 文本检索 基于文字的检索 (4)统计语言检索模型通过语言的方法将查询和文档联系起来。这种思想诞生了一系列的模型。最原始的统计语言检索模型是查询似然模型。简单地说,查询似然模型首先认为每篇文档是在某种“语言”下生成的。在该“语言”下生成查询的可能性便可看成文档和查询之间的相似度。所谓“语言”,可以通过统计语言模型来刻画,即某个词、短语、语句的分布概率。因此,查询似然模型通常包括两个步骤:首先对每个文档估计其统计语言模型,然后利用这个统计语言模型计算其生成查询的概率。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于结构的检索 和基于文字的检索不同,基于结构的检索要用到文档的结构信息。文档的结构包括内部结构和外部结构。所谓内部结构,是指文档除文字之外的格式、位置等信息;所谓外部结构,是指文档之间的基于某种关联构成的“关系网”,如可以根据文档之间的引用关系形成“引用关系网”。基于结构的检索通常不会单独使用,可以和基于文字的检索联合使用。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于结构的检索 在基于内部结构的检索中,可以利用文字所在的位置、格式等信息来更改其在文字检索中的权重。举例来说,各级标题、句首、htmI文件中的锚文本可以

文档评论(0)

1亿VIP精品文档

相关文档