网页搜索技术简介研讨
网页搜索技术简介;搜索引擎概述
搜索引擎关键技术
检索系统
索引系统
网络爬虫
相关性
引擎的评测与改进
;搜索引擎概述;搜索引擎概述;搜索系统架构;检索串分析: 把用户输入的检索串进行分词和语意分析,分解成检索语法树
中国恒大 ? (中国 || 中华|| china) 恒大 ?
(中国恒大) || (中华恒大)|| (china恒大)
检索串表示为多个词组的交集,如果有同义词,可以进行同义词扩展。
检索树其他特性: IDF信息,检索时新性判断,检索主题分类(体育/新闻/视频…)
;检索: 核心是一个倒排求交并进行排序的过程
倒排表:词语到文章的映射
(中国恒大) = doc5
;检索难点: 短时间内,完成超长倒排的求交过程。在线检索系统,文章数量从几百亿到上千亿不等。高频词,可能在数10亿个网页中存在,如何求交?
;并行求交: 倒排表进行多次拆分,分布到不同的机器上。求交的时候下发语法树,所有机器对同一个语法树进行求交操作。求交结果进行多次合并排序,最终返回用户。
一次检索会涉及到集群的所有机器,能量开销大
;检索性能: 检索开销巨大,需要优化检索性能到极限(CPU/内存/IO)。关键指标:文章装机量,QPS
文章装机量:单机能够装载的文章数。集群在线文章更多,长尾检索效果更好,但是倒排长度更长,会降低QPS
QPS:单机能够承载的检
原创力文档

文档评论(0)