Iseo教程:搜索引擎优化入门与进阶笔记.docxVIP

Iseo教程:搜索引擎优化入门与进阶笔记.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Iseo教程:搜索引擎优化入门与进阶笔记

S,欢迎访问搜索引擎工作原理收录流程1、提交url是一个被动且费时间的行为。2、建立外链,外链的数量、质量及相关性左右着录入时间,是主动的。页面收录方式页面收录使用的策略,目的是从互联网筛选出相对重要的信息。若使用相同抓取策略,在同一站中抓取页面资源更具效率,那么则会再网站上停留更长的时间,收录的页面数自然也就爱更多。广度优先。优点:优先抓取重要的页面。应对策略:将重要信息设计在较浅层次的页面上。深度优先。优点:页面需求的长尾,抓取更多冷门、隐藏的页面,满足更多用户的需求。应对策略:重要信息放置在多层次的页面上。用户提交。优点:大大提高页面收录效率、数量和收录页面的质量。如何避免重复收录(页面重复、内容重复)网站中的重复信息:转载内容、镜像内容。重复信息的影响:占用硬盘、延长用户搜素时间权重:原创转载镜像(几乎完全被忽略)转载页面 比较多个被划分为N个区域页面的M个区域。若MA(某阀值),则互为转载。 通过比较最后修改时间、页面权重等因素判断哪个是原创。镜像页面 比较多个被划分为N个区域的页面,若N个区域内容完全一样,则认为这些页面互为镜像页面。判断原创如转载一样。镜像网站 狭义的镜像网站是指内容完全相同的网站。 形成原因:1、多个域名或IP指向同一服务器的同一个物理目录; 2、整个网站内容被复制到使用不同域名或IP的服务器上。识别源网站是通过判断这些网站的首页以及首页直接链接的页面是否互为镜像页面。再综合多项因素(如网站权重值、建立时间等)识别。镜像网站只收录极少页面,甚至不收录页面。页面维护方式 为让搜索引擎适应网站的不断变化和缺录。定期抓取 周期性针对全部已收录页面进行维护。 页面权重的再分配也是与页面维护同步进行。 适用于页面较少,内容更新慢的网站。 缺点:由于维护周期长,是的不能及时向用户反映更新期间页面的变化情况。增量抓取 对已抓取的页面进行定时监控,实现对页面的更新及维护。(不现实) 基于80/20法则,搜索引擎只针对某些重要页面网站中部分重要页面进行定时监控,即可获取网站中相对重要的信息。 优点:对重要页面的内容更新会及时发现新内容、新链接、并删除不存在的信息。分类定位抓取 根据页面的类别或性质而制定相应更新周期的页面监控方式。 新闻资讯周期小于资源下载的周期。 大型门户网站内容更新速度比小型快。 优点:大大提高页面抓取的灵活性和实时性。 补充:各种抓取方式组合抓取页面。页面存储 搜索引擎能否在抓取页面的过程中获取到更多有价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以搜索引擎除了存储原始页面外,还会附加一系列的信息(如文件类型、文件大小、最后修改时间、rul、ip地址、抓取时间等),再把这些作为开展某项工作的依据。网页分析 对原始页面进行一系列的分析、处理,以迎合用户信息查询的习惯。建立关键字索引与反向索引,分配权值。网页索引为提高页面检索的效率,而对页面url建立索引。网页分析正文信息提取过滤非正文信息(HTML标签、JS标签、PHP标签)。分词/切词通过对过滤出的正文内容进行切分(该行为就是分词/切词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。分词算法:1、字符串匹配分词 2、统计分词。 3、关键字索引。记录了该关键字所在的网页编号、关键字编号、关键字出现次数以及关键字在文档中的位置信息。4、关键字重组 。建立以关键字对应多个网页的方向索引。页面排序页面相关性 关键字匹配度 缺点:易被网站所有者操控。还需要结合关键字密度、关键字分布及关键字的权重标签等多方面来决定。关键字密度关键字密度是关键字词频与网页总词量的比例。不同密度对应不同密度值。关键字分布依据关键字位置对应不同的分布值。关键字的权重标签链接权重入度与出度,及其权值分配。内部链接外部链接默认权重分配用户行为 点击率关键字查询查询流程用户行为搜素。统计词汇热度、发现新词汇。点击缓存机制。对查询最多的前20%的关键字进行缓存。

文档评论(0)

wangz118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档