网页搜索技术题库.pptxVIP

下载本文档

5
0
约3.68千字
约 29页
2017-05-19 发布于湖北
举报
版权申诉

网页搜索技术题库.pptx

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网页搜索技术简介;搜索引擎概述搜索引擎关键技术检索系统索引系统网络爬虫相关性引擎的评测与改进 ;搜索引擎概述;搜索引擎概述;搜索系统架构;检索串分析: 把用户输入的检索串进行分词和语意分析，分解成检索语法树中国恒大 ? (中国 || 中华|| china) 恒大 ? （中国恒大） || （中华恒大）|| （china恒大）检索串表示为多个词组的交集，如果有同义词，可以进行同义词扩展。检索树其他特性： IDF信息，检索时新性判断，检索主题分类（体育/新闻/视频…） ;检索: 核心是一个倒排求交并进行排序的过程倒排表：词语到文章的映射（中国恒大） = doc5 ;检索难点: 短时间内，完成超长倒排的求交过程。在线检索系统，文章数量从几百亿到上千亿不等。高频词，可能在数10亿个网页中存在，如何求交？ ;并行求交: 倒排表进行多次拆分，分布到不同的机器上。求交的时候下发语法树，所有机器对同一个语法树进行求交操作。求交结果进行多次合并排序，最终返回用户。一次检索会涉及到集群的所有机器，能量开销大 ;检索性能: 检索开销巨大，需要优化检索性能到极限(CPU/内存/IO)。关键指标：文章装机量，QPS 文章装机量：单机能够装载的文章数。集群在线文章更多，长尾检索效果更好，但是倒排长度更长，会降低QPS QPS：单机能够承载的检索次数上限，制约整个集群的检索能力，QPS提高能够降低检索成本求交过程需要进行全方位的优化，提升求交性能！一次检索会涉及到集群的所有机器，能量开销大 ; 文章索引优化：继续挖掘优化：块压缩？变长编码，差分编码….. ; 求交过程优化：（1）倒排表按照文章质量以及和词语相关度进行了离线排序（2）倒排表进行多路归并，寻找词语倒排表交集其他优化方法：建立倒排二级索引，Bitmap直接表示文章增加单机文章装机量：固态硬盘，异步IO, CPU绑定，无锁编程……. ;存储： url库，正文库，链接库，用户行为数据…. 计算：抽取、反垃圾、排重、选取、顺排、倒排、链接计算、锚文本计算索引选取：从离线存储库中的几千亿网页选取优质数据到在线库。（几百亿到上千亿不等）顺排倒排：对网页进行分词，建立倒排表。倒排是词语到文章的映射，顺排是文章到词语的映射。 ;计算：依赖大规模分布式计算MR（Infrastructure） /archive/mapreduce.html 索引选取计算：从离线存储库中的几千亿网页选取优质数据进入到在线库。（几百亿到上千亿不等）选取规则：黑白名单：命中白名单直接进入选择分类规则：网站首页，用户点击或者展现过的页面，第三方优质数据….., 更多细化的规则保证选择优质数据网页打分：根据用户行为数据(点击/展现/浏览日志)，网页权威度特征(PR,DR)和网页质量进行综合打分 ; 打分模型：针对网页评分，建立合适的打分模型非线性模型：指数模型，对数模型，分段模型…… 线性模型：value = 权重* A + 权重 * B，多数会对权重和数据进行归一化处理，具体的取值可以通过多次训练获得模型参数：（1）用户行为数据(点击/展现/浏览日志)，浏览器数据非常关键，可以收集到非常长尾的网页数据！（2）网页质量特征：page rank，quality rank（网页质量），domain rank(主站质量)…. (3) 网页内容特征： url深度，分光镜(内容分类)，编码格式…. ;问题：如何选取1000亿网页中得分前100亿的网页？根据上一轮网页打分，可以得出网页的得分分布状态例：在这20篇文章中，找出得分排名前10的文章，可以知道阈值是3 每天都有新的数据，如何在时新性和成本达成妥协？（1）时新性数据直接实时进入实时索引系统。（2）常规数据每天分批计算，每天上线1/N数据，N天完成全量索引更新 ;网络爬虫是搜索引擎的数据源头，直接决定数据质量和收录。它负责发现/下载/更新网页数据。数据是搜索质量的基础。调度：从Url库中选择需要抓取的url 抓取：下载网页数据抽取：把下载网页分析为结构化的数据，URL/正文/锚文本/链接库 ;调度：下载配额是受到下载机器/出口带宽/对方网站配额等多个因素制约的，下载能力非常有限。需要从Url库中选取最有价值的url进行下载调度原则：链接分类配额