网页搜索技术简介研讨.pptx

网页搜索技术简介研讨

网页搜索技术简介;搜索引擎概述 搜索引擎关键技术 检索系统 索引系统 网络爬虫 相关性 引擎的评测与改进 ;搜索引擎概述;搜索引擎概述;搜索系统架构;检索串分析: 把用户输入的检索串进行分词和语意分析,分解成检索语法树 中国恒大 ? (中国 || 中华|| china) 恒大 ? (中国恒大) || (中华恒大)|| (china恒大) 检索串表示为多个词组的交集,如果有同义词,可以进行同义词扩展。 检索树其他特性: IDF信息,检索时新性判断,检索主题分类(体育/新闻/视频…) ;检索: 核心是一个倒排求交并进行排序的过程 倒排表:词语到文章的映射 (中国恒大) = doc5 ;检索难点: 短时间内,完成超长倒排的求交过程。在线检索系统,文章数量从几百亿到上千亿不等。高频词,可能在数10亿个网页中存在,如何求交? ;并行求交: 倒排表进行多次拆分,分布到不同的机器上。求交的时候下发语法树,所有机器对同一个语法树进行求交操作。求交结果进行多次合并排序,最终返回用户。 一次检索会涉及到集群的所有机器,能量开销大 ;检索性能: 检索开销巨大,需要优化检索性能到极限(CPU/内存/IO)。关键指标:文章装机量,QPS 文章装机量:单机能够装载的文章数。集群在线文章更多,长尾检索效果更好,但是倒排长度更长,会降低QPS QPS:单机能够承载的检

文档评论(0)

1亿VIP精品文档

相关文档