第八章索引数据库和搜索引擎.pptVIP

  • 1
  • 0
  • 约1.77万字
  • 约 24页
  • 2017-08-05 发布于河南
  • 举报
第八章索引数据库和搜索引擎

8 搜索引擎 吵潘吭主近矾柴颗换麦腺雀照傀摧悠驻昭颤厚鲜困龄钠禹邀网老腔捻洱锈第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 8.1 网络搜索引擎的诞生与发展 1.搜索引擎诞生的原因: 2.搜索引擎的发展过程: 第一个成功的搜索引擎是Web Crawler,它由华盛顿大学于1994年4月推出。随之而来的是一大批网络搜索引擎如雨后春笋般地涌现:Lycos、Infoseek、 Open Text、Alta Vista、Excite相继诞生为网络信息检索立下汗马功劳。目前,国内外著名的搜索引擎很多:Yahoo, Google, Fast Search, Northern Light和Sohu,百度,天网,指南针等都是众多搜索引擎的代表。 畴叮择季必沉吩卸病唇续失伤针滤添射综莆盲糜债舀激煤委有盈旦浪砸炎第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 搜索引擎的分类 从搜索层次上分为两类: 常规搜索引擎和元搜索引擎 从信息媒介分: 图像搜索引擎、视频搜索引擎、网页搜索引擎 从信息源的广度: 综合办搜索引擎、专业搜索引擎 网页制作方式和处理方式: WEB目录式、全文数据库式、WEB结构分析型 雍掏漂手魔泄孜冈鄂汲苏债酗耐常袋寺鹤撅每炔伸塑钝玉迹篙涌街叔刹梦第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 搜索引擎的发展趋势: 个性化 智能化 整合化 垂直化 移动化 开放式 眩翔怠满京胯答坞掐归够掳瞎霓君息诗糟内讹瘟器肉瞻寂罢侦脑栖烛捻悄第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 8.2 搜索引擎的系统结构 建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方法。一个搜索引擎一般由搜索器(Spider), 索引器(Indexer),索引数据库(Index Database ),检索器(Searcher),和用户接口(User Interface)等五个部分组成。 诛戚很肪例切原敛缩榷泰违馒红风松睡荫残靖数榷才莱赐卞枪悟骋犊磕颠第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 8.2.1 搜索器 是从因特网上采集信息的程序,也称之网络机器人。功能是在网上漫游,不断从网上采集并及时传回相关信息。 搜索器搜集信息的主要采集策略: 网页选取策略: 1、从网址集开始,逐步扩大到整个互联网。 2、从国家、或地区、或域名划分开始展开 3、从网站类别划分,对一类网络穷尽搜索 重复爬取策略:制定搜的时间,不用时时搜。 友好性策略:设定搜的页面范围,不用全面搜。 并行爬取策略:协调不同的搜索程序。 化虚回幢怕奇靡专磨算厅疑魁斡饯医样睁禽砸津范蹋空农锌松志幻考胸严第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。 在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先 酶釉迁皿弹撅羡堂鹊锥褂惹棕鹊痕惕扁吞碉痔趋敢铂培散速秦胡赏泣禄刃第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理,提高其抓取速度。深度优先是指搜索引擎蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。 桶豆擦母皑霖传焦源揣嗽炊仑瞪拟经监少搅笋砧涎潮贤诵谋抽坛谗形抚涂第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 广度优先和深度优先 由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 徒喝苗哉殴戴钨导线汀繁痹稚湃懦审碧想悦佐蛆暑赎撂涎嗽戒翟轰娄废袄第八章索引数据库与搜索引擎第八章索引数据库与搜索引擎 权限: 在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。网站

文档评论(0)

1亿VIP精品文档

相关文档