SE[搜索引擎]相关知识详解.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SE(搜索引擎)相关知识详解(一)搜索引擎的定义搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。(二)SE搜索引擎工作原理第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。第二步:抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。第三步:预处理搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。⒈提取文字⒉中文分词⒊去停止词⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)5.正向索引6.倒排索引7.链接关系计算8.特殊文件处理除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。第四步:排名用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。选择与网站内容相关搜索次数多,竞争小主关键词,不可太宽泛主关键词,不太特殊商业价值提取文字中文分词去停止词消除噪声去重正向索引倒排索引链接关系计算特殊文件处理(三)SEO的定义及引擎优化方法SEO是由英文Search Engine Optimization缩写而来,中文意译为“搜索引擎优化”。SEO是指通过对网站内部调整优化及站外优化,使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名,从而把精准用户带到网站,获得免费流量,产生直接销售或品牌推广。SEO优化方法SEO白帽SEO白帽是一种公正的手法,是使用符合主流搜索引擎发行方针规定的SEO优化方法。一直被业内认为是最佳的SEO手法,它是在避免一切风险也避免了与搜索引擎发行方针发生任何的冲突,它也是SEOer从业者的最高职业道德标准。 因为搜索引擎是以文本为中心,许多有助于网页亲和力的同样手段同样便利于搜索引擎优化。这些方法包括优化图形内容、包括ALT属性、和增加文本说明。甚至Flash动画可于设计该页时包括替代性内容,这本来用来给访客无法阅读Flash的环境用的,来帮助优化。这里是一些搜索引擎认为适当的方法:在每页使用一个短、独特和相关的标题。编辑网页,用与该页的主题。有关的具体术语替换隐晦的字眼。这有助于该站诉求的观众群,在搜索引擎上搜索而被正确导引至该站。在该站点增加相当数量的原创内容。使用合理大小、准确描述的汇标,而不过度使用关键字、惊叹号、或不相关标题术语。确认所有页面可通过正常的链接来访问,而非只能通过Java、JavaScript或Adobe Flash应用程序访问。这可通过使用一个专属列出该站所有内容的网页达成(网站地图)通过自然方式开发链结:Google不花功夫在这有点混淆不清的指南上。写封电子邮件给网站员,告诉他:您刚刚贴了一篇挺好的文章,并且请求链接,这种做法很可能为搜索引擎所认可。参与其他网站的网络集团(译按:web ring指的是有相同主题的结盟站群)──只要其它网站是独立的、分享同样题目和可比较的质量。SEOSEO黑帽笼统的说,所有使用作弊手段或可疑手段的,都可以称为黑帽SEO。比如说垃圾链接,隐藏网页,刷IP流量,桥页,关键词堆砌等等。SEO黑帽是一种不为搜索引擎所支持的违规行为,因为黑帽SEO挑战了行业道德底线,因此为被广大白帽SEO而所不齿。垃圾索引(Spamdexing)意指通过欺骗技

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档