SE(搜索引擎)相关知识详解.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SE(搜索引擎)相关知识详解 (一)搜索引擎的定义 搜索 HYPERLINK /subview/53607/5078350.htm \t _blank 引擎(Search Engine)是指根据一定的 HYPERLINK /view/117922.htm \t _blank 策略、运用特定的 HYPERLINK /view/178184.htm \t _blank 计算机程序从 HYPERLINK /view/6825.htm \t _blank 互联网上搜集 HYPERLINK /view/1527.htm \t _blank 信息,在对信息进行 HYPERLINK /view/46944.htm \t _blank 组织和 HYPERLINK /view/989420.htm \t _blank 处理后,为用户提供 HYPERLINK /view/677662.htm \t _blank 检索服务,将用户检索相关的信息展示给用户的 HYPERLINK /view/25302.htm \t _blank 系统。搜索引擎包括 HYPERLINK /view/62889.htm \t _blank 全文索引、 HYPERLINK /view/1487025.htm \t _blank 目录索引、 HYPERLINK /view/7203.htm \t _blank 元搜索引擎、 HYPERLINK /view/7491.htm \t _blank 垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 一个搜索引擎由搜索器 、 HYPERLINK /view/159861.htm \t _blank 索引器 、检索器 和 HYPERLINK /view/1309799.htm \t _blank 用户接口 四个部分组成。搜索器的功能是在 HYPERLINK /view/6825.htm \t _blank 互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示 HYPERLINK /view/55621.htm \t _blank 文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 (二)SE搜索引擎工作原理 第一步:爬行 搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。 第二步:抓取存储 搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容 HYPERLINK /view/66302.htm \t _blank 检测,一旦遇到权重很低的 HYPERLINK /view/4232.htm \t _blank 网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。 第三步:预处理 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。 ⒈提取文字 ⒉ HYPERLINK /view/19109.htm \t _blank 中文分词 ⒊去停止词 ⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……) 5.正向索引 6.倒排索引 7.链接关系计算 8.特殊文件处理 除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。 第四步:排名 用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。 选择 与网站内容相关 搜索次数多,竞争小 主关键词,不可太宽泛 主关键词,不太特殊 商业价值 提取文字 中文分词 去停止词 消除噪声 去重 正向索引 倒排索引 链接关系计算 特殊文件处理 (三)SEO的定义及引擎优化方法 HYPERLINK /view/1047.htm \t _blank SEO是由英文Search Engine Optimization缩写而来, 中文意译为“ HYPERLINK /view/1154.htm \t _

文档评论(0)

汪汪队 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档