- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录 1、hadoop简介 2、搜索引擎简介 3、搜索引擎关键技术 搜索引擎爬虫 搜索引擎索引 索引基础 索引构建 索引更新 查询处理 搜索引擎检索排序 4、学习资源 5、动动手 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字体: 微软雅黑 字号: 28-12pt 颜色: 黑色 第一遍文档扫描时,搜索引擎系统完成一些全局信息的统计,比如文档的数量M,每个文档的单词数量N,不同单词的数量P,每个单词的文档频率DF等等,进而估算索引大致需要多少内存。根据估算值,预先申请一块连续的内存来存储倒排索引。 第二遍文档扫描的主要工作就是填补每个单词的倒排列表,即对于每个单词,获得其所在文档的ID以及其在该文档出现的频率TF,如此不断填充第一遍扫描时所分配的内存空间。经过两遍文档扫描后,可将词典及倒排列表信息由内存写入到磁盘。 两遍文档倒排法的索引构建过程完全在内存中进行,要求内存一定要足够大,要能够存储所有文档的倒排索引。 (1)两遍文档遍历法 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字体: 微软雅黑 字号: 28-12pt 颜色: 黑色 排序倒排法(Sort-based Inversion)在内存中始终分配一个固定的空间,用于存放词典信息和索引中间结果,当分配的内存被消耗光的时候,把中间结果写入磁盘,同时清空中间结果占据的空间,为下一轮存放索引中间结果做存储区准备,它可以对任意规模的文档集合建立索引。 (2)排序法 文档ID赋值→单词ID赋值→更新词典→统计词频→构建三元组→三元组排序→写中间结果文件→合并中间结果文件。 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字体: 微软雅黑 字号: 28-12pt 颜色: 黑色 归并倒排法(Merge-based Inversion)对排序法的改进,即当内存定额被耗光时,将所有内存内容,包括词典等也一并写入磁盘,此前的内存被清空,如此后续在建立索引时,就可以使用所有的定额内存了。 (3)归并倒排法 搜索 核心 技术 …搜索…核心…技术… 解析 追加索引 写入磁盘 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字体: 微软雅黑 字号: 28-12pt 颜色: 黑色 基于文档划分(Document Partitioning),就是将整个文档集合切割成若干子集合,而每台机器负责对某个文档子集合建立索引,并响应查询请求。 (4)分布式索引——基于文档划分 查询分发服务器 索引服务器 接收用户查询请求 将查询请求分发到各服务器 从所有服务器接收搜索结果 合并搜索结果返回TopN搜索结果 索引服务器 索引服务器 处理查询,返回TopK结果 发送查询请求 返回查询结果 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字体: 微软雅黑 字号: 28-12pt 颜色: 黑色 对词典进行划分,每个索引服务器负责词典部分词项的倒排列表的建立和维护。 分布式索引——基于词项划分 查询分发服务器 索引服务器节点3(Term3) 索引服务器节点2(Term2) 索引服务器节点1(Term1) 查询请求(Term1,Term2,Term3) 返回搜搜结果 将查询请求中每个词项按照哈希取模的方法分发到对应的节点,分别进行计算并将结果反馈给查询分发服务器。 对结果进行合并排序,返回TopN搜索结果 目录 1、hadoop简介 2、搜索引擎简介 3、搜索引擎关键技术 搜索引擎爬虫 搜索引擎索引 索引基础 索引构建 索引更新 查询处理 搜索引擎检索排序 4、学习资源 5、动动手 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字体: 微软雅黑 字号: 28-12pt 颜色: 黑色 当新增文档到一定数量,将新增文档和原先的老文档进行合并,然后利用前述章节提到的建立索引的方式,对所有文档重新建立索引。新的索引建立完成后,老的索引被遗弃释放,之后对用户查
文档评论(0)