腾讯大讲堂25-企业级搜索托管平台介绍.pptVIP

腾讯大讲堂25-企业级搜索托管平台介绍.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业级搜索托管平台介绍 Smith. 2008.3.26. 搜索技术中心. 目录 检索算法基础 搜索托管平台介绍 搜索托管平台展望 第一部分 检索算法基础 基本概念 基本算法 算法难点 搜索托管平台介绍 搜索托管平台展望 检索算法基础-基本概念 检索算法基础-基本概念 名词: Doc, 文档 Word, 词 Index Term, 索引项 DocID, 文档ID WordID, 词ID Inverted Index, 倒排 Forward Sort, 顺排 Broker, 代理 Cache, 缓存(检索结果) Abstract, 摘要 Query Keywords, 检索串 检索算法基础-基本概念 问题1:信息如何表示? 信息的来源? Q SINA.COM QQ Mail … … 如何表示? 对于非结构化信息,需要进行抽取、整理,转换成格式化信息; 格式化信息还需要进行过滤,去除无用信息,去噪; 最后表示为格式化文档, DataSrc := { Doc } * ; Doc := {DocID,{Text Field}*, {Num Field}*}* ; 例如: DocID := 46233597118 ; Text Field := { Title: 我的博客,Text: 今天封闭开发开始了, ……}; Num Field : = { 回复数:108,QQ Rank: Lv3, …… }; 检索算法基础-基本概念 问题2:倒排? 检索算法基础-基本概念 问题3:检索? 检索算法基础-算法的分解 二分查找 HASH查找 快速排序 窗口排序 多路归并 平衡树 B+Tree SkipList … … 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-常用算法 检索算法基础-算法难点 第二部分 检索算法基础 搜索托管平台介绍 项目背景 平台介绍 搜索托管平台展望 项目背景 支持R线如下项目 X. 漩涡下载搜索系统 V. video视频搜索 T 滔滔搜索 QQ client 消息搜索 支持互联网线如下项目 QZone qzone博文搜索 QZone 个人档案搜索 QQ Show 商品搜索 QQ Photo 相册搜索 QQ Live 节目搜索 P 商品检索 项目背景-问题 搜索托管平台介绍 搜索托管平台介绍 搜索托管平台介绍 第三部分 检索算法基础 搜索托管平台介绍 搜索托管平台展望 搜索托管平台展望-流程 搜索托管平台展望-流程 搜索托管平台展望-计划 * * 正文数据库 相关结果检索 请求 响应 检索 格式化 DB DB DB 检索数据库 (倒排数据库) 文档 内容 Doc1 ….奥运会夺日程…. Doc2 ….2008奥运会日程….. Doc3 …公司班车日程表… 。。。 ? 索引词 索引项(intex term) 奥运会 doc1doc2。。。 日程 doc1doc3。。。 。。。 。。。 原始文档 倒排索引 倒排(invert sorting) 奥运会 d0,d1,d2… 词典 倒排文件 d0,d1… 日程 ② ③ 奥运会日程 ① ④ ∧ 文档属性 多级索引算法 数值压缩 Bitmap索引 路由分布算法 摘要提取算法 多级相关性排序算法 内存倒排算法 针对不同应用需求,选择简单、快速的算法; 问题1: 存储? GZip压缩正文,减小文档大小; 通过路由算法进行分布式存储; 平滑扩容,通过少量数据的搬迁; DOCID索引+顺序文件; 通过定期整理完成删除; 通过大小库完成数据的同步; 问题2: 索引? 索引过程分为以下几步 切词,通过中文分词算法, Doc:={word string}*; 建立词典,HASH 或 顺序,完成文本到编码的转换; Dict := {WordID, String}*; 顺排,计算Doc内部的词的排序信息,Doc:={WordID,pos,weight}*; 倒排; WordID := {DocID,Weight,Pos}*; 问题3: 检索? 获取用户的检索串; 对检索串进行分词; 将检索串分解为词的and,or,not关系的复合; 分别读出倒排,进行and,or,not的计算; 进行相关性排序,返回top n的结果给用户。 OR AND AND 下载 腾讯 腾讯

文档评论(0)

hushuidhd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档