搜索引擎基本工作原理.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎基本工作原理 目录 1工作原理 2搜索引擎 3目录索引 4百度谷歌 5优化核心 6SE0优化 ?网站url ?title信息 ?meta信息 ?图片alt ?flash信息 ? frame 架 工作原理 搜索引擎的基木工作原理包括如卜?三个过程:首先在互联网中发现、搜集网页信 息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关 键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的 结果进行排序,并将杳询结果返回给用户。 1、 抓取网页。每个独立的搜索引擎都有口己的网页抓取程序爬虫(spider) o 爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分 析连续访问抓取更多网页。被抓取的网页被称Z为网页快照。由于互联网中超链 接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、 处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索 服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重 复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富 度等。 3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹 配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段 来自网页的摘要以及其他信息。 搜索引擎基木工作原理 呂搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库 的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段吋 间(比如Google-般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息 和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定吋间 内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有 关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主 动提交网址并不保证你的网站能进入搜索引擎数据库,凶此目前最好的办法是多 获得一些外部链接,讣搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户 要求内容相符的网站,便采用特姝的算法——通常根据网页中关键词的匹配程度, 岀现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根 据关联度高低,按顺序将这些网页链接返回给用户。 目录索引 与全文搜索引擎相比,目录索引有许多不同Z处。 首先,搜索引擎属于□动网站检索,而目录索引则完全依赖手工操作。用户提交 网站后,口录编辑人员会亲口浏览你的网站,然后根据一套口定的评判标准甚至 编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只耍网站本身没有违反有关的规则,一般都能登录 成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤 其象Yahoo!这样的超级索引,登录更是困难。 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录冃录索引 时则必须将网站放在一个最合适的目录(Directory) □ 最后,搜索引擎中齐网站的有关信息都是从用户网页中白动提取的,所以用户的 角度看,我们拥有更多的口主权;而目录索引则要求必须手工另外填写网站信息, 而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网 站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查 询信息时,可选择关键词搜索,也可按分类目录逐层杳找。如以关键词搜索,返 回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因 素要多一些。如果按分层目录杳找,某一目录中网站的排名则是由标题字母的先 后顺序决定(也有例外)。 目前,搜索引擎与口录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引 擎现在也提供目录搜索,如Google就借用Open Directory Fl录提供分类査询。 而象Yahoo!这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围 (注),在默认搜索模式下,一些目录类搜索引擎首先返回的是门己目录中匹配 的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahooo 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内 容的推广一一这就是搜索引擎营销的核心思想。这句话说起来很简单,如杲仔细 分析会发现,这句话的确包含了搜索引擎推广的一般规律。木文作者在“网站推 广策略Z内容推广思想漫谈” 一文中提出一个观点:“网站内容不仅是大型

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档