网页搜索技术题库.pptxVIP

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页搜索技术简介;搜索引擎概述 搜索引擎关键技术 检索系统 索引系统 网络爬虫 相关性 引擎的评测与改进 ;搜索引擎概述;搜索引擎概述;搜索系统架构;检索串分析: 把用户输入的检索串进行分词和语意分析,分解成检索语法树 中国恒大 ? (中国 || 中华|| china) 恒大 ? (中国恒大) || (中华恒大)|| (china恒大) 检索串表示为多个词组的交集,如果有同义词,可以进行同义词扩展。 检索树其他特性: IDF信息,检索时新性判断,检索主题分类(体育/新闻/视频…) ;检索: 核心是一个倒排求交并进行排序的过程 倒排表:词语到文章的映射 (中国恒大) = doc5 ;检索难点: 短时间内,完成超长倒排的求交过程。在线检索系统,文章数量从几百亿到上千亿不等。高频词,可能在数10亿个网页中存在,如何求交? ;并行求交: 倒排表进行多次拆分,分布到不同的机器上。求交的时候下发语法树,所有机器对同一个语法树进行求交操作。求交结果进行多次合并排序,最终返回用户。 一次检索会涉及到集群的所有机器,能量开销大 ;检索性能: 检索开销巨大,需要优化检索性能到极限(CPU/内存/IO)。关键指标:文章装机量,QPS 文章装机量:单机能够装载的文章数。集群在线文章更多,长尾检索效果更好,但是倒排长度更长,会降低QPS QPS:单机能够承载的检索次数上限,制约整个集群的检索能力,QPS提高能够降低检索成本 求交过程需要进行全方位的优化,提升求交性能! 一次检索会涉及到集群的所有机器,能量开销大 ; 文章索引优化: 继续挖掘优化: 块压缩? 变长编码,差分编码….. ; 求交过程优化: (1)倒排表按照文章质量以及和词语相关度进行了离线排序 (2)倒排表进行多路归并,寻找词语倒排表交集 其他优化方法: 建立倒排二级索引,Bitmap直接表示文章 增加单机文章装机量: 固态硬盘,异步IO, CPU绑定,无锁编程……. ;存储: url库,正文库,链接库,用户行为数据…. 计算:抽取、反垃圾、排重、选取、顺排、倒排、链接计算、锚文本计算 索引选取:从离线存储库中的几千亿网页选取优质数据到在线库。(几百亿到上千亿不等) 顺排倒排:对网页进行分词,建立倒排表。倒排是词语到文章的映射,顺排是文章到词语的映射。 ;计算:依赖大规模分布式计算MR(Infrastructure) /archive/mapreduce.html 索引选取计算:从离线存储库中的几千亿网页选取优质数据进入到在线库。(几百亿到上千亿不等) 选取规则: 黑白名单:命中白名单直接进入选择 分类规则:网站首页,用户点击或者展现过的页面,第三方优质数据….., 更多细化的规则保证选择优质数据 网页打分:根据用户行为数据(点击/展现/浏览日志),网页权威度特征(PR,DR)和网页质量进行综合打分 ; 打分模型:针对网页评分,建立合适的打分模型 非线性模型:指数模型,对数模型,分段模型…… 线性模型:value = 权重* A + 权重 * B,多数会对权重和数据进行归一化处理,具体的取值可以通过多次训练获得 模型参数: (1)用户行为数据(点击/展现/浏览日志),浏览器数据非常关键,可以收集到非常长尾的网页数据! (2)网页质量特征:page rank,quality rank(网页质量),domain rank(主站质量)…. (3) 网页内容特征: url深度,分光镜(内容分类),编码格式…. ;问题:如何选取1000亿网页中得分前100亿的网页? 根据上一轮网页打分,可以得出网页的得分分布状态 例:在这20篇文章中,找出得分排名前10的文章,可以知道阈值是3 每天都有新的数据,如何在时新性和成本达成妥协? (1)时新性数据直接实时进入实时索引系统。 (2)常规数据每天分批计算,每天上线1/N数据,N天完成全量索引更新 ;网络爬虫是搜索引擎的数据源头,直接决定数据质量和收录。它负责发现/下载/更新网页数据。数据是搜索质量的基础。 调度:从Url库中选择需要抓取的url 抓取:下载网页数据 抽取:把下载网页分析为结构化的数据,URL/正文/锚文本/链接库 ;调度:下载配额是受到下载机器/出口带宽/对方网站配额等多个因素制约的,下载能力非常有限。需要从Url库中选取最有价值的url进行下载 调度原则:链接分类配额

文档评论(0)

1112111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档