认识搜索引擎.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
熟悉搜寻引擎 作者:中国点击 金灵 发布日期:10-14-2003 发送本文给你的伴侣 生成打印机友好页面 从用户角度来看,搜寻引擎(Search Engine)是互联网上查找信息的重要工具,关心人们在茫茫网海中搜寻到所需要的信息;从技术角度来看,搜寻引擎一个对互联网上的信息资源进行搜集整理,然后供用户查询的技术和系统,它包括信息搜集、信息整理和用户查询三部分。 依据搜寻引擎的工作方式,分为下列4种类型的搜寻引擎: (一)以蜘蛛程序为基础的全文搜寻引擎(Crawler Based Search Engine) 这种搜寻引擎通过蜘蛛程序(英文叫做Robot, Spider或Crawler)自动收录网页,是真正意义上的搜寻引擎,国外的Google、Fast(AllTheWeb)、AltaVista、Inktomi都是属于这种类型的搜寻引擎。国内的百度过去也是纯粹的全文搜寻引擎,后来在搜寻结果中引入竞价排名收费模式,当有关键字广告时,全部关键字广告消失在自然搜寻结果的前面,国外还没有一个全文搜寻引擎敢这么做,由于这会影响搜寻引擎的质量。假如百度把关键字广告放在自然搜寻结果的边上,而不是直接消失在自然搜寻结果中,将是既不影响赚钱又不影响搜寻质量的完善做法。 它的工作原理如下: 收集网页 搜寻引擎定期派出蜘蛛程序自动访问互联网及网站,并沿着网页中的链接爬到其它网页,把爬过的全部网页收集回来。 建立网页索引数据库 由搜寻引擎的分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的全部关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),依据搜寻引擎的相关法算法进行大量简单的计算,得到每一个网页针对网页内容中及超链中关键词的相关度,然后用这些相关信息建立网页索引数据库。 在网页索引数据库中搜寻排序 当用户在搜寻引擎网站输入关键词搜寻后,由搜寻引擎的搜寻系统程序从网页索引数据库中找到符合该关键词的全部相关网页。由于全部相关网页针对该关键词的相关度早已算好,所以只需依据现成的相关度数值排序,相关度越高,排名越靠前。最终,由搜寻引擎的页面生成系统将搜寻结果的链接地址和页面内容摘要等内容组织起来返回给用户。 (二)以人工为基础的分类名目(Editor Based Directory) 分类名目索完全依靠手工操作,用户提交网站后,名目编辑人员会亲自扫瞄所递交的网站,然后依据一套自定的评判标准甚至编辑人员的主观印象,来打算是否接纳所递交的网站,只有接纳的网站才被依据分类存入网址数据库中。分类名目将网站分门别类地存放在相应的名目中,因此用户在查询信息时,可选择关键词搜寻,也可按分类名目逐层查索引找。分类名目虽然有搜寻功能,但在严格意义上算不上是真正的搜寻引擎,仅仅是按名目分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类名目也可找到需要的信息。具有代表性的分类名目有雅虎(Y),Open Directory Project(DMOZ.org)、LookSmart(LookS),国内的搜狐、新浪、网易上的名目索引服务也都属于这一类。 (三)以其它搜寻引擎为基础的元搜寻引擎(Meta Search Engine) 元搜寻引擎没有自己的网页索引数据库,并不是真正的搜寻引擎。元搜寻引擎在接受用户查询恳求时,负责转换处理后提交给多个预先选定的多个以蜘蛛程序为基础的搜寻引擎,再将从各独立搜寻引擎返回的全部查询结果,集中起来处理后再返回给用户。闻名的元搜寻引擎有Mamma、Dogpile、Vivisimo等(元搜寻引擎列表),在搜寻结果排列方面,有的直接按来源引擎排列搜寻结果,如Dogpile;有的则按自定的规章将结果重新排列组合,如Vivisimo。元搜寻引擎概念上好听,但搜寻效果始终不抱负,所以没有哪个元搜寻引擎有过强势地位。 (四)按点击收费的付费搜寻引擎(Pay Per Click Search Engine,简称为PPC) 这种搜寻引擎在国内也被称为竞价排名搜寻引擎,用户得到的搜寻结果实质上是一种通过搜寻关键字来被访问的文本广告(简称为关键字广告)。纯粹PPC并不是真正意义上的搜寻引擎,由于它的搜寻结果是关键词广告,假如没有大流量的合作伙伴,纯粹PPC没有价值。国内的百度并不是纯粹PPC,而是全文搜寻引擎加上PPC的混合体,其全文搜寻引擎是最好的中文搜寻引擎之一。 这种收费搜寻引擎的工作过程和原理如下: 广告主选择关键词,向付费搜寻引擎递交网站,支付完广告费后,网站被收录到网页索引数据库。 广告主通过竞价的方式来打算点击价格,情愿承受的点击价格越高,其网站在搜寻结果中的排名位置就越靠前。 用户在付费搜寻引擎网站或其流量合作伙伴的网站输入关键词搜寻后,由付费搜寻引擎的搜寻程序从网页索引

文档评论(0)

dajiede + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档