搜索引擎原理简析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎原理简析

走进搜索引擎,再进一点!——搜索引擎原理简析主讲人:Rude一二三四五搜索引擎系统概述搜索引擎下载系统搜索引擎分析系统搜索引擎索引系统搜索引擎查询系统 信息爆炸了!杂乱无章的信息、凌乱VS井井有条的信息、清爽!搜索引擎的服务方式搜索引擎的服务方式可以分为三种:目录式搜索引擎、全文搜索引擎、元搜索引擎搜索引擎原理逆推想要查询?有算法处理数据?有结构化的数据?去获得数据查询结果查询数据获取数据处理数据搜索引擎原理概述下载系统?分析系统?索引系统?查询系统www下载数据索引数据索引系统网页库用户查询查询系统索引库返回结果一二三四五搜索引擎系统概述搜索引擎下载系统搜索引擎分析系统搜索引擎索引系统搜索引擎查询系统 概念引入蜘蛛、种子站点、URL、反链1、蜘蛛 Spider、Robots、Wanderers2、种子站点 蜘蛛爬行开始抓取的起点3、URL :80/index.html4、反链 正向链接与反向链接万维网的结构万维网的蝴蝶结结构?目录型网页、权威型网页。INOUTSCC蜘蛛爬行抓取策略宽度抓取(广度抓取)与深度抓取祖先祖先长子次子其他长子次子其他长孙长孙Robots协议网络爬虫排除标准”(Robots Exclusion Protocol), RobotsQA:如何设置重访策略?白天、黑夜? 抓取提速问题?QA:怎么避免重复抓取? 网页抓取的优先策略? 一二三四五搜索引擎系统概述搜索引擎下载系统搜索引擎分析系统搜索引擎索引系统搜索引擎查询系统 概念引入Html语言、锚文本、半结构化数据1、Html语言 标签?标签!2、锚文本 a href=“/”SEO技术哪家强?/a3、半结构化数据 结构化数据?半结构化数据?半结构化向结构化靠拢提取文字!奔着结构化的目标提取文字!1、锚文本(anchor text)2、标题(title)3、正文标题(content title)4、正文(content)5、正向链接(link)来吧,看看标签树将半结构向结构化数据转变简单的去重来看看Shingle算法查重!中国足球队国足球队在 中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育报道。足球队在米……J=A∩B/A∪B米卢率领中米卢率领中国足球队首次杀入世界杯决赛阶段,搜狐体育播报。卢率领中国率领中国足……中文分词!基于词典及统计学的中文分词。1、基于词典的中文分词 正向最大匹配法 逆向最大匹配法 学历史学好?2、基于统计学的分词 P(S)=P(W1W2W3……Wn)=P(W1)*P(W2|W1)*P(Wt|W1W2……Wt-1)基于链接的分析算法PR?Hits?1、PR算法 PR(A) = (1-d)+ d(PR(t1)/C(t1)+ ... + PR(tn)/C(tn))BB0.2A0.4AECC0.4D一二三四五搜索引擎系统概述搜索引擎下载系统搜索引擎分析系统搜索引擎索引系统搜索引擎查询系统 概念引入索引,全文检索,文档编号,1、索引 索引是描述信息的信息,比如书籍的目录 正排索引、正向索引、前向索引 倒排索引、倒向索引2、全文检索 文档的全部文字参与索引,检索词出现的位置可以提供3、文档编号 每篇文档的一个独立的编号正向索引与倒排索引注意正向与倒排索引中的主键与属性LidWord idN hitsHit ListDoc1Word1mHit1,…HitmWord2nHit1,…Hitm………………NullDoc2………………Null正向索引Doc idN hitsHit ListDoc1Doc2Doc133,5,7……Doc3倒排索引Word idnDocs偏移量T12XT21y……Tnz正向索引与倒排索引来个更简单易懂的正向与倒排吧文件ID内容文件1关键词1,关键词2文件2关键词1,关键词3文件3关键词3,关键词2关键词文件关键词1文件1,文件2关键词2文件1,文件3关键词3文件2,文件3一二三四五搜索引擎系统概述搜索引擎下载系统搜索引擎分析系统搜索引擎索引系统搜索引擎查询系统 概念引入查询词?检索词?有何区别?1、查询词 查询词是用户丢在搜索框中进行查询的词2、检索词 检索词是搜索引擎丢进索引库查询结果时检索的词。3、查询词?检索词 查询词向检索词的转变中,需要经过分词处理。网页结果的呈现步骤查询的同时搜索引擎在进行快速的计算1、布尔模型 最简单也最实用的 0和12、权重计算 内容+链接+用户点击3、结果呈现 Url、标题、描述、快照日期、图片传统IR相关排序技术TF*IDF与向量空间模型1、TF*IDF算法 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。2、向量空间模型 把对文本内容的处理简化为向量空间中的向量运算,并以空间上的相似度表达语义的

文档评论(0)

yanpan1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档