URL规范化.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
URL规范化

URL规范化URL规范化(url normalization)其实就是一个标准化URL的过程,其实也就是将一个URL转化为一个符合规范的等价URL(如/shuchao转化为/shuchao/),这样程序可以确定这两个URL是等价的。URL规范化用于搜索引擎可以减少对页面的重复索引,同时也可以减少爬虫的重复抓取。浏览器端识别用户是否访问过一个URL也需要使用URL规范化。 1 URL组成 2 不规范的URL 3 URL规范化过程 4 SEO URL规范化 URL组成: protocol :// hostname[:port] / path / [;parameters][?query]#fragment协议://主机名[:端口]/ 路径/[:参数] [?查询]#Fragment 不规范的URL: 1 URL中多余的字符 1.1 子域名的URL中包含www:? / 1.2 含有默认端口: :80/shuchao/ 1.3 松散的URL: http://www.chapters.indigo.ca/books/amazon-sucks-donkey-balls/9780470170779-item.html 1.4 多余默认文件名index.html,default.aspx等:/shuchao/index.html 1.5 文件路径中???? (1) 多余的/:/shuchao// ???? (2) 多余的点修饰串:x/y/z//a/b//../page.html 1.6 查询串中多余的 ???? (1) ? (空查询串):/shuchao? ???? (2) ???? (3) 无用的查询变量:/display?id=123fake=fake 2 URL缺少字符串 2.1 缺少/:/shuchao2.2 查询串缺少名称或者值:/display?id= 或者 /display?=123 3 其他不规范的URL 3.1 / 与 /shuchao/其实是相同的内容 3.2 使用IP代替域名 3.3 含有扩充字符(extended characters),大小写敏感(/Intl/zh-CN/about.html 和/intl/zh-CN/about.html) 3.4 +和%20混用 3.5 查询变量顺序混乱:/test.aspx?bar=1a=test 3.6 含临时的状态变量:/test?back=/prevpage.aspx URL规范化过程: 1.URL协议名和主机名小写化 HTTP://WWW.EXAMPLE.com/test ? - /test 2.escape序列转化为大写,因为escape序列大小敏感 %3a -%3A 3.删除Fragment(#) /test/index.html#seo - /test/index.html 4.删除空查询串的? /test?? -? /test 5.删除默认后缀 /test/index.html?? -? /test/ 6.删除多余的点修复符 ? /../a/b/../c/./d.html - /a/c/d.html 7.删除多余的www /? - / 8.对查询变量排序 ?/test?id=123fakefoo=fakebar /test?id=123 \ 9.删除取默认值的变量 /test?id=sort=ascending /test 10.删除多余的查询串,如?, ?/test? /test 11.Dust 规则(Schonfeld 等人提出的启发式方法) /test?id=123 - /test_123 SEO URL规范化: 不规范的URL会造成网站很多重复的URL,导致爬虫重复抓取同一内容,影响网站有效的内容被抓取,同时也就影响索引。多个不规范URL造成PR稀疏,本来流向同一页面的PR,结果造成了流向多个不规范的URL。还有一个用户体验问题,复杂或者不规范的URL容易使用户对网站造成不良印象。Google管理员增加了URL规范化的工具,可以删除URL中无用的参数。1 301跳转: 将被删除的URL跳转的到有用的URL(注意1对1), 不浪费资源.2 禁止爬行: 修改robots.txt和webmaster central里的参数3 修改系统: 从系统上删除, 避免以后出问题.4 跟踪分析修改效果.

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档