6.4 海量数据的快速检索技术 6.4.1 文本检索 基于文字的检索 (4)统计语言检索模型通过语言的方法将查询和文档联系起来。这种思想诞生了一系列的模型。最原始的统计语言检索模型是查询似然模型。简单地说,查询似然模型首先认为每篇文档是在某种“语言”下生成的。在该“语言”下生成查询的可能性便可看成文档和查询之间的相似度。所谓“语言”,可以通过统计语言模型来刻画,即某个词、短语、语句的分布概率。因此,查询似然模型通常包括两个步骤:首先对每个文档估计其统计语言模型,然后利用这个统计语言模型计算其生成查询的概率。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于结构的检索 和基于文字的检索不同,基于结构的检索要用到文档的结构信息。文档的结构包括内部结构和外部结构。所谓内部结构,是指文档除文字之外的格式、位置等信息;所谓外部结构,是指文档之间的基于某种关联构成的“关系网”,如可以根据文档之间的引用关系形成“引用关系网”。基于结构的检索通常不会单独使用,可以和基于文字的检索联合使用。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于结构的检索 在基于内部结构的检索中,可以利用文字所在的位置、格式等信息来更改其在文字检索中的权重。举例来说,各级标题、句首、htmI文件中的锚文本可以
您可能关注的文档
最近下载
- 湖北省武汉市江岸区2024-2025学年八年级下学期期末考试英语试卷(含答案,无听力原文及音频).pdf VIP
- 大同浑源300MWp光伏平价上网项目配套220kV送出线路工程环评.doc VIP
- 2025年上海高二学业水平合格性考试化学试卷试题(含答案详解).docx VIP
- 2025年成都七初天环初一入学语文分班考试真题含答案.docx VIP
- A-海洋中的数理统计-期末考试(2019级海科).docx VIP
- 2026年春冀人版(新教材)小学科学二年级下册(全册)教学设计(附教材目录).docx
- 杜邦的安全理念及安全文化培训通用课件.ppt VIP
- 汽车发动机构造与维修教学.pptx
- 2026年上海市杨浦区社区工作者招录考试(综合能力测试)历年参考题库含答案详解.docx VIP
- 精品解析:重庆市九龙坡区2023-2024学年七年级下学期期末道德与法治试题(解析版).docx VIP
原创力文档

文档评论(0)