网站端SEO术指标.doc

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网站端SEO术指标

网站端SEO技术指标 影响抓取/索引的指标 Robots文件 【文件作用】 用于告诉搜索引擎哪些页面可以抓取,哪些页面抓取 屏蔽站点内的死链接。 设置网站地图链接,便于引导搜索蜘蛛爬取页面。 【用法示例】 在robots.txt文件实际应用过程中,以下语句会经常使用到,用以让搜索爬虫抓取正确的页面: Disallow: /abc/ 禁止/abc/目录下的所有URL Disallow: /abc/*.php 禁止/abc/目录下的所有以.为后缀的URL Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址,可用于屏蔽动态URL。 Disallow: /.jpg$ 禁止抓取网站上所有的.jpg格式的图片,仅允许抓取网页和其他格式图片。 Sitemap: 网站地图 告诉爬虫这个页面是网站地图 【注意事项】 无论网站是否存在需要屏蔽爬虫抓取的目录或页面,都必须在站点根目录下创建robots.txt文件。 Baiduspider支持使用通配符*和$来模糊匹配URL。*?匹配0或多个任意字符$?匹配行结束符。 User-agent: * Allow: / 服务器IP屏蔽 服务器屏蔽爬虫IP对网页抓取及收录是致命的。当网站页面迟迟不收录或者爬虫不来爬行页面,首要任务就是检查Web Server有没有屏蔽过某些IP地址。 【应用说明】 使用IP查询工具()可以初步判定某IP是否百度爬虫。 检查Web服务器Log日志,分析爬虫抓取返回的状态码,正常情况返回200,如果返回403/404/503,说明服务器对爬虫IP进行了限制,必须及时调整放开。 【注意事项】 百度爬虫有时候在抓取网页时,并不使用Baiduspider这个官方User-Agent,甚至可能不使用任何User-Agent(主要用意可能是分析网站是否使用了欺骗爬虫的SEO手法),加之抓取量很大,这种情况很容易给服务器运维人员造成假象,最后导致爬虫IP直接被屏蔽,给网站SEO产生重大影响;因此,在屏蔽IP时,务必特别注意。以下IP需要特别注意: 220.181.68.*:网站可能被降权了。 123.125.71.*:低权重IP端。抓取内页收录的权重比较低,可能由于你采集文章或拼文章暂时被收录,但不参与排名 220.181.108.*:高权重IP端。主要抓取网站重要页面,爬行过的页面会很快更新。 123.125.67.*:百度站长平台的蜘蛛IP端。 61.135.168.*:抓取图片的百度蜘蛛IP端。 以下抓取行为证实为真实百度爬虫抓取,但爬虫URL却是错误的,切莫轻易屏蔽掉IP。 页面状态码(Http Code) 百度spider对常见的http返回码的处理逻辑如下: 404:含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取 503:含义是“Service??Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回 503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。 403含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。 301含义是“Moved??Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但推荐。 【指标作用】 网页体积越小,网页打开速度越快,越有利于爬虫抓取,对页面收录会产生促进作用。 【设计原则】 网页文件体积控制在100K之内,小于25K最佳。 【应用技巧】 使用DIV+CSS结构减少冗余html代码(如页面中的font、bgcolor之类的格式化控制代码 CSS与JS采用外部文件调用,Html代码尽可能只用来显示文字内容 慎用多层嵌套表格 开启服务器压缩,如gzip压缩等 TDK数据 PageTitle 【使用规范】 简短精炼,高度概括,字数控制在30个汉字内为最佳,不宜超过40个汉字。 包含当前页面的关键词,且关键词位置尽可能出现在最左边。 使用下划线“_“或中横线”-“作为分隔符。 在

文档评论(0)

173****7830 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档