桂小林主编《物联网技术导论》课件V1.ppt

下载文档 降价啦

19
0
约3.5万字
约 335页
2019-01-02 发布于广东
举报
保障服务

桂小林主编《物联网技术导论》课件V1.ppt

6.4 海量数据的快速检索技术 6.4.1 文本检索基于文字的检索（4）统计语言检索模型通过语言的方法将查询和文档联系起来。这种思想诞生了一系列的模型。最原始的统计语言检索模型是查询似然模型。简单地说，查询似然模型首先认为每篇文档是在某种“语言”下生成的。在该“语言”下生成查询的可能性便可看成文档和查询之间的相似度。所谓“语言”，可以通过统计语言模型来刻画，即某个词、短语、语句的分布概率。因此，查询似然模型通常包括两个步骤：首先对每个文档估计其统计语言模型，然后利用这个统计语言模型计算其生成查询的概率。 6.4 海量数据的快速检索技术 6.4.1 文本检索基于结构的检索和基于文字的检索不同，基于结构的检索要用到文档的结构信息。文档的结构包括内部结构和外部结构。所谓内部结构，是指文档除文字之外的格式、位置等信息；所谓外部结构，是指文档之间的基于某种关联构成的“关系网”，如可以根据文档之间的引用关系形成“引用关系网”。基于结构的检索通常不会单独使用，可以和基于文字的检索联合使用。 6.4 海量数据的快速检索技术 6.4.1 文本检索基于结构的检索在基于内部结构的检索中，可以利用文字所在的位置、格式等信息来更改其在文字检索中的权重。举例来说，各级标题、句首、htmI文件中的锚文本可以

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

桂小林主编《物联网技术导论》课件V1.ppt