网站端SEO术指标.doc

下载文档 降价啦

5
0
约9.54千字
约 33页
2018-03-23 发布于浙江
举报
版权申诉
保障服务

网站端SEO术指标.doc

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网站端SEO术指标

网站端SEO技术指标影响抓取/索引的指标 Robots文件【文件作用】用于告诉搜索引擎哪些页面可以抓取，哪些页面抓取屏蔽站点内的死链接。设置网站地图链接，便于引导搜索蜘蛛爬取页面。【用法示例】在robots.txt文件实际应用过程中，以下语句会经常使用到，用以让搜索爬虫抓取正确的页面： Disallow: /abc/ 禁止/abc/目录下的所有URL Disallow: /abc/*.php 禁止/abc/目录下的所有以.为后缀的URL Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址，可用于屏蔽动态URL。 Disallow: /.jpg$ 禁止抓取网站上所有的.jpg格式的图片，仅允许抓取网页和其他格式图片。 Sitemap: 网站地图告诉爬虫这个页面是网站地图【注意事项】无论网站是否存在需要屏蔽爬虫抓取的目录或页面，都必须在站点根目录下创建robots.txt文件。 Baiduspider支持使用通配符*和$来模糊匹配URL。*?匹配0或多个任意字符$?匹配行结束符。 User-agent: * Allow: / 服务器IP屏蔽服务器屏蔽爬虫IP对网页抓取及收录是致命的。当网站页面迟迟不收录或者爬虫不来爬行页面，首要任务就是检查Web Server有没有屏蔽过某些IP地址。【应用说明】使用IP查询工具（）可以初步判定某IP是否百度爬虫。检查Web服务器Log日志，分析爬虫抓取返回的状态码，正常情况返回200，如果返回403/404/503，说明服务器对爬虫IP进行了限制，必须及时调整放开。【注意事项】百度爬虫有时候在抓取网页时，并不使用Baiduspider这个官方User-Agent，甚至可能不使用任何User-Agent（主要用意可能是分析网站是否使用了欺骗爬虫的SEO手法），加之抓取量很大，这种情况很容易给服务器运维人员造成假象，最后导致爬虫IP直接被屏蔽，给网站SEO产生重大影响；因此，在屏蔽IP时，务必特别注意。以下IP需要特别注意： 220.181.68.*：网站可能被降权了。 123.125.71.*：低权重IP端。抓取内页收录的权重比较低，可能由于你采集文章或拼文章暂时被收录，但不参与排名 220.181.108.*：高权重IP端。主要抓取网站重要页面，爬行过的页面会很快更新。 123.125.67.*：百度站长平台的蜘蛛IP端。 61.135.168.*：抓取图片的百度蜘蛛IP端。以下抓取行为证实为真实百度爬虫抓取，但爬虫URL却是错误的，切莫轻易屏蔽掉IP。页面状态码（Http Code）百度spider对常见的http返回码的处理逻辑如下： 404：含义是“NOT FOUND”，百度会认为网页已经失效，那么通常会从搜索结果中删除，并且短期内spider再次发现这条url也不会抓取 503：含义是“Service??Unavailable”，百度会认为该网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。对于网页返回 503，百度spider不会把这条url直接删除，短期内会再访问。届时如果网页已恢复，则正常抓取；如果继续返回503，短期内还会反复访问几次。但是如果网页长期返回503，那么这个url仍会被百度认为是失效链接，从搜索结果中删除。 403含义是“Forbidden”，百度会认为网页当前禁止访问。对于这种情况，如果是新发现的url百度spider暂不会抓取，短期内会再次检查；如果是百度已收录url，当前也不会直接删除，短期内同样会再访问。届时如果网页允许访问，则正常抓取；如果仍不允许访问，短期内还会反复访问几次。但是如果网页长期返回403，百度也会认为是失效链接，从搜索结果中删除。 301含义是“Moved??Permanently”，百度会认为网页当前跳转至新url。当遇到站点迁移，域名更换、站点改版的情况时，推荐使用301返回码，尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长，但推荐。【指标作用】网页体积越小，网页打开速度越快，越有利于爬虫抓取，对页面收录会产生促进作用。【设计原则】网页文件体积控制在100K之内，小于25K最佳。【应用技巧】使用DIV+CSS结构减少冗余html代码（如页面中的font、bgcolor之类的格式化控制代码 CSS与JS采用外部文件调用，Html代码尽可能只用来显示文字内容慎用多层嵌套表格开启服务器压缩，如gzip压缩等 TDK数据 PageTitle 【使用规范】简短精炼，高度概括，字数控制在30个汉字内为最佳，不宜超过40个汉字。包含当前页面的关键词，且关键词位置尽可能出现在最左边。使用下划线“_“或中横线”-“作为分隔符。在