智能搜索引擎.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能搜索引擎.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * ③ 检索对象的多样性 Google提供网页(Web)、图像(Images)、新闻群组即讨论区(Groups)和网页目录(Directory)的检索服务,以及购物搜索、在线答疑、书目搜索、大学院校搜索等特别主题搜索,以便从不同的检索途径尽可能地满足不同需求的用户。 Google还提供特定文件搜索功能,除HTML页面外,搜索结果中还包括以PDF、DOC等为后缀名的12种文档。同时,Google提供“View as HTML”(用HTML格式浏览)功能,以便未安装相应文档格式软件的用户也可查看。 ④ 中文简繁体转换技术 Google采用Basis Technology的中文简繁体转换技术,可以实现汉字简繁字体的自动转换,从而使用户找到更多相关信息。该系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。当用户检索所有中文网页时,Google先对检索式进行简繁转换后,同时检索简体和繁体网页,并将检索结果的标题和摘要转换成和检索式相同类型的文本,便于用户阅读。 (2)检索结果处理的智能化 为了准确筛选索引中的网页信息和显示结果,Google打破了传统的网络分类概念,采用独树一帜的PageRank页面等级技术和超文本匹配分析技术(Hypertext-Matching Analysis)。 ① PageRank页面等级技术 Google利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,即:如果一个页面被多次引用,那么这个页面很可能是重要的;如果一个页面尽管没有被多次引用,但被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被平均分配到它所引用的页面。 在实际计算时,Google还考虑到网页A的所有链入网页(链接到某网页的其它网页称为该网页的链入网页)对它的推荐能力(即由于它们对网页A的链接,使人们认为网页A的重要程度)和推荐程度(即它们认为网页A的重要程度)。一个网页本身的PageRank值越高,则它对其链出网页(从某个网页链出的网页称为该网页的链出网页)的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程度就越高。 Google关于网页PageRank值的计算公式: PR(A) =(1-d) +d (PR(T1) /C(T1) +…+PR(Tn) / C(Tn)) 其中:PR(A)是指网页A的PageRank值; T1,T2,……,Tn是网页A的链入网页; PR(Ti)是指网页Ti的PageRank值(i=1,2,…n); C(Ti)是指网页Ti的链出网页的数量(i=1,2,…n); d是一个衰减因子,0d1,通常取值为0.85。 对于一个查询,Google首先利用相似度函数计算其相似页面数的多少,然后计算每个页面的重要性。在计算每个页面的重要性之前,Google给每一个网页赋予一个初始PageRank值,再根据PageRank算法计算其PageRank值。排列检索结果时,将PageRank值高的网页依次排在列表的前面。 ②超文本匹配分析技术 一般的搜索引擎仅仅考虑关键词在文档中出现的次数,除此之外,Google还分析关键词在网页中出现时所用的字体、字号以及在网页中出现的精确位置,并对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析,赋予不同的权重,通过计算得出最新的排列结果。Google认为关键词在网页中出现的位置及字体等因素可以充分体现该关键词在该网页中的重要程度。例如,若某关键词出现在网页A的标题中,而只是出现在网页B的正文中,则在不考虑其它因素的情况下,说明网页A与用户需求更匹配。 另外,Google引入了锚文本(Anchor Text,即超文本链接的文字描述)对网页内容进行分析。锚文本在一定程度上能更加准确地描述其链接网页的内容。Google会记录网页中所有的超文本链接情况,包括该链接的文字描述(即Anchor Text)、该链接的具体对象(主要是其URL)。例如,网页A中有一个关键词“人工智能”,且该关键词存储了一个超文本链接指向网页B,则关键词“人工智能” 可以很好地说明网页B的内容。此处的关键词“人工智能”就是Anchor Text,Google会记录关键词“人工智能”以及网页B的URL。 Google对以上影响因素赋予不同的权重,通过计算得出最新的排列结果,提高查准率,更好地满足用户需求。 Google的检索结果结果显示包括网站分类目录、标题、

文档评论(0)

此项为空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档