第三讲:索引与查询处理(5章)
一、引言 检索速度 每天全世界输入超过5亿个查询,而互联网有几十亿网页 高效的查询处理,对于网络搜索特别重要! 高效检索的基础 大多数检索计算都与数据结构有关,优秀的算法都有好的数据结构 例:处理项目列表应当采用链表,根据属性查找项目可采用哈希表,一些复杂搜索(如人名)需采用B+树,。。。 搜索引擎的基石 文本搜索与传统的计算任务有很大不同,需采用特殊数据结构 倒排索引是一种特殊数据结构,能很好地服务于相关排序函数 倒排索引是所有现代网络搜索引擎的核心 检索模型(第7章) 查询处理算法依赖于:检索模型、以及指定索引的内容 (相关)排序模型又依赖于索引的选择 搜索引擎各独立部分之间有很强的依赖关系! 二、相关排序模型2.1 抽象的相关排序模型 ‘抽象的’相关排序模型示例(图5-1) 文档,通过转换(4章)抽取出文档特征(主题特征和质量特征) ‘查询输入’和’文档特征’经查询处理后,得到文档的分数(排序依据) 重要现象:大多数排序函数都只用到文档中少量特征!(?) 使 得:倒排索引成为搜索中一个引人注目的数据结构! 人工排序时: 可以分成 好,中,差几类 可以仔细地看看 每个文档的内容 但智能化花精力 搜索引擎: 确定好的特征 基于特征的排序 2.2 一种‘具体的’相关排序模型 相关排序函数R的形式: (7章将详细讨论) (fi,gi都是数字特征函数,为各种特
您可能关注的文档
- 第三讲情商与大学生心理健康.ppt
- 4第四章法的效力全解.ppt
- 第三课 有朋友的感觉 2.ppt
- 第三课 发现自己.doc
- 第三讲 创业企业类型.ppt
- 4第四章薪酬水平及其外部竞争性全解.ppt
- 第三课 在那颗星星下 词语1.ppt
- 第三课 在那颗星星下课文.pptx
- 第三节比热容新课落实.doc
- 第三篇 手机维修技能.ppt
- 传媒行业5月投资策略:关注AI应用叙事逻辑改善可能,把握游戏与IP潮玩底部机会.docx
- 家电行业转型AI算力专题:家电行业焕发新生,AI算力跨界掘金正当时.docx
- 家电行业周报:安克发布新品Solarbank 4,重新定义阳台光储.docx
- 纺织服装2025年报&26一季报总结:消费复苏渐显,制造景气承压.docx
- 食品饮料行业年度策略:筑底渐明,修复启航.docx
- 食品饮料行业深度报告:乳业周期筑底,内蒙古集群向新.docx
- 消费出海系列深度(五):品牌出海梳理——“长期主义”下的出海选择.docx
- 农林牧渔行业专题报告:生猪供需和成本的十万个为什么.docx
- 2025年中国热泵产业发展年鉴.docx
- 电力设备与新能源行业周报:AIDC、空天、工控、锂电汇聚风口,风电、BC低位值得关注.docx
原创力文档

文档评论(0)