- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页搜索技术简介;搜索引擎概述
搜索引擎关键技术
检索系统
索引系统
网络爬虫
相关性
引擎的评测与改进
;搜索引擎概述;搜索引擎概述;搜索系统架构;检索串分析: 把用户输入的检索串进行分词和语意分析,分解成检索语法树
中国恒大 ? (中国 || 中华|| china) 恒大 ?
(中国恒大) || (中华恒大)|| (china恒大)
检索串表示为多个词组的交集,如果有同义词,可以进行同义词扩展。
检索树其他特性: IDF信息,检索时新性判断,检索主题分类(体育/新闻/视频…)
;检索: 核心是一个倒排求交并进行排序的过程
倒排表:词语到文章的映射
(中国恒大) = doc5
;检索难点: 短时间内,完成超长倒排的求交过程。在线检索系统,文章数量从几百亿到上千亿不等。高频词,可能在数10亿个网页中存在,如何求交?
;并行求交: 倒排表进行多次拆分,分布到不同的机器上。求交的时候下发语法树,所有机器对同一个语法树进行求交操作。求交结果进行多次合并排序,最终返回用户。
一次检索会涉及到集群的所有机器,能量开销大
;检索性能: 检索开销巨大,需要优化检索性能到极限(CPU/内存/IO)。关键指标:文章装机量,QPS
文章装机量:单机能够装载的文章数。集群在线文章更多,长尾检索效果更好,但是倒排长度更长,会降低QPS
QPS:单机能够承载的检索次数上限,制约整个集群的检索能力,QPS提高能够降低检索成本
求交过程需要进行全方位的优化,提升求交性能!
一次检索会涉及到集群的所有机器,能量开销大
; 文章索引优化:
继续挖掘优化:
块压缩? 变长编码,差分编码…..
; 求交过程优化:
(1)倒排表按照文章质量以及和词语相关度进行了离线排序
(2)倒排表进行多路归并,寻找词语倒排表交集
其他优化方法:
建立倒排二级索引,Bitmap直接表示文章
增加单机文章装机量:
固态硬盘,异步IO, CPU绑定,无锁编程…….
;存储: url库,正文库,链接库,用户行为数据….
计算:抽取、反垃圾、排重、选取、顺排、倒排、链接计算、锚文本计算
索引选取:从离线存储库中的几千亿网页选取优质数据到在线库。(几百亿到上千亿不等)
顺排倒排:对网页进行分词,建立倒排表。倒排是词语到文章的映射,顺排是文章到词语的映射。
;计算:依赖大规模分布式计算MR(Infrastructure)
/archive/mapreduce.html
索引选取计算:从离线存储库中的几千亿网页选取优质数据进入到在线库。(几百亿到上千亿不等)
选取规则:
黑白名单:命中白名单直接进入选择
分类规则:网站首页,用户点击或者展现过的页面,第三方优质数据….., 更多细化的规则保证选择优质数据
网页打分:根据用户行为数据(点击/展现/浏览日志),网页权威度特征(PR,DR)和网页质量进行综合打分
; 打分模型:针对网页评分,建立合适的打分模型
非线性模型:指数模型,对数模型,分段模型……
线性模型:value = 权重* A + 权重 * B,多数会对权重和数据进行归一化处理,具体的取值可以通过多次训练获得
模型参数:
(1)用户行为数据(点击/展现/浏览日志),浏览器数据非常关键,可以收集到非常长尾的网页数据!
(2)网页质量特征:page rank,quality rank(网页质量),domain rank(主站质量)….
(3) 网页内容特征: url深度,分光镜(内容分类),编码格式….
;问题:如何选取1000亿网页中得分前100亿的网页?
根据上一轮网页打分,可以得出网页的得分分布状态
例:在这20篇文章中,找出得分排名前10的文章,可以知道阈值是3
每天都有新的数据,如何在时新性和成本达成妥协?
(1)时新性数据直接实时进入实时索引系统。
(2)常规数据每天分批计算,每天上线1/N数据,N天完成全量索引更新
;网络爬虫是搜索引擎的数据源头,直接决定数据质量和收录。它负责发现/下载/更新网页数据。数据是搜索质量的基础。
调度:从Url库中选择需要抓取的url
抓取:下载网页数据
抽取:把下载网页分析为结构化的数据,URL/正文/锚文本/链接库
;调度:下载配额是受到下载机器/出口带宽/对方网站配额等多个因素制约的,下载能力非常有限。需要从Url库中选取最有价值的url进行下载
调度原则:链接分类配额
文档评论(0)