网络智能搜索引擎.ppt

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络智能搜索引擎

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 10.5 网络智能搜索引擎实例分析 10.5.1 Google的搜索机制 (1)网络爬行器与本地数据库 几个分布的网络爬行器(Crawler)同时搜取网页,由URL服务器负责向Crawler提供URL列表。Crawler将找寻到的网页送到存储服务器(Store Server)中,存储服务器把这些网页压缩后存入数据库(repository,用于存储每个网页的全部HTML及其他有关信息)中,并赋予每个网页一个关联ID,称为docID。 (2)索引器和排序器 索引功能通过索引器(Indexer)和排序器(Sorter)来实现。索引器从知识库中读取文档并将其转换成一组词的出现状况(word occurrences),称为采样(hits)。hits记录了词、词在文档中的位置、字号、大小写等。索引器把这些hits分配到一组桶“barrels”中,产生经过部分排序后的索引。同时,索引器还分析网页中所有的链接,并将重要信息存于链接描述文件(Anchors)中,该文件保存了链接描述文字和其他一些信息,足以判断一个链接被链入或链出的情况。 (3) URL分析器 URL分析器(URL Resolver)阅读链接文件Anchors,把相对的URL转换成绝对的URL,与其docID号对应,形成链接文件的文本索引,Anchor文本与所指向的docID建立关联,产生了由docID对(pairs of docID)所组成的链接数据库,用于计算网页的PageRank值。 (4)搜索 排序器读取桶中的词汇,并根据词的ID号(wordID)列表重新生成倒排文档。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合,形成一个新的字典供搜索器(Searcher)使用。搜索器由Web服务器实现,并根据DumpLexicon所生成的词表,结合上述倒排索引及页面等级来匹配用户的查询。 10.5.2 Google的智能行为分析 (1)检索技术的智能化 ① 网页采集技术——分布式爬行系统 为了获取上亿网页,Google设计了一种分布式爬行器(Crawler)系统,由系统中的漫游遍历器(Googlebot)定期地(通常是28天)按预先设定的IP地址范围遍历对应网页,若网页发生变化或者发现新的网页,则获取此网页传回服务器,然后继续沿网络遍历,直至访问完所有链接。为了保证爬行器遍历信息的广度,Google事先设定了一些重要的链接。 Google可同时运行三个爬行器,当服务器将URL列表提供给爬行器后,每个爬行器同时保持与大约300个网络连接。最高速度时,Google每秒钟通过爬行器获取的网页可超过100个。影响爬行速度的一个重要因素是DNS查询,为此,每个爬行器需要一个维护自己的DNS缓冲。这样每个链接都处于不同的状态,包括:DNS查询、连接主机、发送请求、得到响应。该分布式爬行系统通过异步输入/输出来管理事件,通过一定数量的队列来管理获取网页过程中的状态迁移。 ② 机器翻译技术——网页翻译功能 Google应用计算机翻译技术,支持多种语言检索,在操作界面中提供多达15种语言选择,包括英语、主要欧洲国家语言、日语、中文简繁体、韩语等,同时还可以用10种东欧语言进行查询,打破了语言上的障碍。 ③ 检索对象的多样性 Google提供网页(Web)、图像(Images)、新闻群组即讨论区(Groups)和网页目录(Directory)的检索服务,以及购物搜索、在线答疑、书目搜索、大学院校搜索等特别主题搜索,以便从不同的检索途径尽可能地满足不同需求的用户。 Google还提供特定文件搜索功能,除HTML页面外,搜索结果中还包括以PDF、DOC等为后缀名的12种文档。同时,Google提供“View as HTML”(用HTML格式浏览)功能,以便未安装相应文档格式软件的用户也可查看。 ④ 中文简繁体转换技术 Google采用Basis Technology的中文简繁体转换技术,可以实现汉字简繁字体的自动转换,从而使用户找到更多相关信息。该系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。当用户检索所有中文网页时,Google先对检索式进行简繁转换后,同时检索简体和繁体网页,并将检索结果的标题和摘要转换成和检索式相同类型的文本,便于用户阅读。 (2)检索结果处理的智能化 为了准确筛选索引中的网页信息和显示结果,Go

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档