- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网站端SEO术指标
网站端SEO技术指标
影响抓取/索引的指标
Robots文件
【文件作用】
用于告诉搜索引擎哪些页面可以抓取,哪些页面抓取
屏蔽站点内的死链接。
设置网站地图链接,便于引导搜索蜘蛛爬取页面。
【用法示例】
在robots.txt文件实际应用过程中,以下语句会经常使用到,用以让搜索爬虫抓取正确的页面:
Disallow: /abc/ 禁止/abc/目录下的所有URL
Disallow: /abc/*.php 禁止/abc/目录下的所有以.为后缀的URL
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址,可用于屏蔽动态URL。
Disallow: /.jpg$ 禁止抓取网站上所有的.jpg格式的图片,仅允许抓取网页和其他格式图片。
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
【注意事项】
无论网站是否存在需要屏蔽爬虫抓取的目录或页面,都必须在站点根目录下创建robots.txt文件。
Baiduspider支持使用通配符*和$来模糊匹配URL。*?匹配0或多个任意字符$?匹配行结束符。
User-agent: *
Allow: /
服务器IP屏蔽
服务器屏蔽爬虫IP对网页抓取及收录是致命的。当网站页面迟迟不收录或者爬虫不来爬行页面,首要任务就是检查Web Server有没有屏蔽过某些IP地址。
【应用说明】
使用IP查询工具()可以初步判定某IP是否百度爬虫。
检查Web服务器Log日志,分析爬虫抓取返回的状态码,正常情况返回200,如果返回403/404/503,说明服务器对爬虫IP进行了限制,必须及时调整放开。
【注意事项】
百度爬虫有时候在抓取网页时,并不使用Baiduspider这个官方User-Agent,甚至可能不使用任何User-Agent(主要用意可能是分析网站是否使用了欺骗爬虫的SEO手法),加之抓取量很大,这种情况很容易给服务器运维人员造成假象,最后导致爬虫IP直接被屏蔽,给网站SEO产生重大影响;因此,在屏蔽IP时,务必特别注意。以下IP需要特别注意:
220.181.68.*:网站可能被降权了。
123.125.71.*:低权重IP端。抓取内页收录的权重比较低,可能由于你采集文章或拼文章暂时被收录,但不参与排名
220.181.108.*:高权重IP端。主要抓取网站重要页面,爬行过的页面会很快更新。
123.125.67.*:百度站长平台的蜘蛛IP端。
61.135.168.*:抓取图片的百度蜘蛛IP端。
以下抓取行为证实为真实百度爬虫抓取,但爬虫URL却是错误的,切莫轻易屏蔽掉IP。
页面状态码(Http Code)
百度spider对常见的http返回码的处理逻辑如下:
404:含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取
503:含义是“Service??Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回 503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
403含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
301含义是“Moved??Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但推荐。
【指标作用】
网页体积越小,网页打开速度越快,越有利于爬虫抓取,对页面收录会产生促进作用。
【设计原则】
网页文件体积控制在100K之内,小于25K最佳。
【应用技巧】
使用DIV+CSS结构减少冗余html代码(如页面中的font、bgcolor之类的格式化控制代码
CSS与JS采用外部文件调用,Html代码尽可能只用来显示文字内容
慎用多层嵌套表格
开启服务器压缩,如gzip压缩等
TDK数据
PageTitle
【使用规范】
简短精炼,高度概括,字数控制在30个汉字内为最佳,不宜超过40个汉字。
包含当前页面的关键词,且关键词位置尽可能出现在最左边。
使用下划线“_“或中横线”-“作为分隔符。
在
您可能关注的文档
最近下载
- 角色模型制作综合规范.pdf VIP
- 汛期居民转移安置点疫情防控工作方案.doc VIP
- 最新BG201使用说明书20121024.pdf VIP
- 车辆维修定点服务项目投标方案(技术标).pdf
- 政府招聘人员协议书.docx VIP
- 2022电网生产调度系统检修工程预算编制与计算方法.docx VIP
- 吸入用一氧化氮-药品临床应用解读.pptx VIP
- Unit 1 Helping at home Part A 第1课时课件2025-2026学年度人教PEP英语四年级上册.pptx VIP
- 《GB3095-2012 环境空气质量标准》.pdf VIP
- GB21148-2020 足部防护 安全鞋.pdf VIP
文档评论(0)