利用网站日志和robots来合理优化网站重点.pptVIP

下载本文档

1
0
约2.39千字
约 31页
2016-06-21 发布于湖北
举报
版权申诉

利用网站日志和robots来合理优化网站重点.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

排名建立在收录的基础，收录建立在抓取的基础。如何看有没有被抓取？抓取了不被收录【过滤】 /wiki/9 抓取 Baiduspider，或称百度蜘蛛，会通过搜索引擎系统的计算，来决定对哪些网站施行抓取，以及抓取的内容和频率值。搜索引擎的计算过程会参考您的网站在历史中的表现，比如内容是否足够优质，是否存在对用户不友好的设置，是否存在过度的搜索引擎优化行为等等。（新站1-2月原创和高质量的外链，上线之前准备高质量的内容。）过滤互联网中并非所有的网页都对用户有意义，比如一些明显的欺骗用户的网页，死链接，空白内容页面等。这些网页对用户、站长和百度来说，都没有足够的价值，因此百度会自动对这些内容进行过滤，以避免为用户和您的网站带来不必要的麻烦。（文不对题、文不对站、）建立索引百度对抓取回来的内容会逐一进行标记和识别，并将这些标记进行储存为结构化的数据，比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时，也会将网页中的关键词信息进行识别和储存，以便与用户搜索的内容进行匹配。输出结果用户输入的关键词，百度会对其进行一系列复杂的分析，并根据分析的结论在索引库中寻找与之最为匹配的一系列网页，按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分，并按照最终的分数进行排列，展现给用户。模板页面重复单页网站后台导航图片背景图片 JS User-agent: * 中间有空格意识说明允许所有引擎抓取！ Disallow: /plus/ad_js.php Disallow: /plus/advancedsearch.php Disallow: /plus/car.php Disallow: /plus/carbuyaction.php Disallow: /plus/shops_buyaction.php Disallow: /plus/erraddsave.php Disallow: /plus/posttocar.php Disallow: /plus/disdls.php Disallow: /plus/feedback_js.php Disallow: /plus/mytag_js.php Disallow: /plus/rss.php Disallow: /plus/search.php Disallow: /plus/recommend.php Disallow: /plus/stow.php Disallow: /plus/count.php Disallow: /include Disallow: /templets Sitemap:/sitemap.html Sitemap:/sitemap.xml 以上信息的意思是，禁止所有搜索引擎蜘蛛抓取和索引以上目录及文件， Disallow: 是定义禁止搜索引擎收录的地址，例如：Disallow: /plus/ad_js.php 意思是，禁止蜘蛛抓取收录plus文件夹下的ad_js.php文件里的内容，再例如：Disallow: /templets，意思是禁止蜘蛛索引收录templets文件夹下的所有文件内容！如果允许所有搜索引擎蜘蛛访问和抓取网站所有内容，可以建立一个空的robots.txt的文件放在根目录，或者把robots.txt内的原有命令改为：User-agent: * 说明下Robots.txt文件的写法我们都不打算让搜索引擎的蜘蛛爬取。在这种情况下，我们就有必要会用到Robots.txt文件，来与搜索引擎沟通。 1.如果你站点中的所有文件，都可以让蜘蛛爬取、收录的话，那么语法这样写: User-agent: * Disallow: 如果你网站中全部的文件都可以让搜索引擎搜索的话，你也可以不管这个文件。 2.完全禁止搜索引擎来访的Robots.txt文件写法: User-agent: * Disallow: / 2.1.要禁止掉某个搜索引擎来访的Robots.txt文件写法: User-agent: Googlebot Disallow: / 3.网站中某个文件夹不希望让搜索引擎收录的Robots.txt文件写法: User-agent: * Disallow: /admin/ Disallow: /images/ 4.禁止Google抓取网站中的图片文件: User-agent: Googlebot Disallow: /*.gif$ Robots.txt文件，是网站与搜索引擎沟通的比较重要的一个方式。 * 利用网站日志和