- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
排名建立在收录的基础,收录建立在抓取的基础。 如何看有没有被抓取? 抓取了不被收录【过滤】 /wiki/9 抓取 Baiduspider,或称百度蜘蛛,会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考您的网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化行为等等。 (新站1-2月原创和高质量的外链 ,上线之前准备高质量的内容。) 过滤 互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以避免为用户和您的网站带来不必要的麻烦。 (文不对题 、文不对站 、 ) 建立索引 百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。 输出结果 用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。 模板页面 重复单页 网站后台 导航图片 背景图片 JS User-agent: * 中间有空格意识说明允许所有引擎抓取! Disallow: /plus/ad_js.php Disallow: /plus/advancedsearch.php Disallow: /plus/car.php Disallow: /plus/carbuyaction.php Disallow: /plus/shops_buyaction.php Disallow: /plus/erraddsave.php Disallow: /plus/posttocar.php Disallow: /plus/disdls.php Disallow: /plus/feedback_js.php Disallow: /plus/mytag_js.php Disallow: /plus/rss.php Disallow: /plus/search.php Disallow: /plus/recommend.php Disallow: /plus/stow.php Disallow: /plus/count.php Disallow: /include Disallow: /templets Sitemap:/sitemap.html Sitemap:/sitemap.xml 以上信息的意思是,禁止所有搜索引擎蜘蛛抓取和索引以上目录及文件, Disallow: 是定义禁止搜索引擎收录的地址, 例如:Disallow: /plus/ad_js.php 意思是,禁止蜘蛛抓取收录plus文件夹下的ad_js.php文件里的内容, 再例如:Disallow: /templets, 意思是禁止蜘蛛索引收录templets文件夹下的所有文件内容! 如果允许所有搜索引擎蜘蛛访问和抓取网站所有内容, 可以建立一个空的robots.txt的文件放在根目录, 或者把robots.txt内的原有命令改为:User-agent: * 说明下Robots.txt文件的写法 我们都不打算让搜索引擎的蜘蛛爬取。在这种情况下,我们就有必要会用到Robots.txt文件,来与搜索引擎沟通。 1.如果你站点中的所有文件,都可以让蜘蛛爬取、收录的话,那么语法这样写: User-agent: * Disallow: 如果你网站中全部的文件都可以让搜索引擎搜索的话,你也可以不管这个文件。 2.完全禁止搜索引擎来访的Robots.txt文件写法: User-agent: * Disallow: / 2.1.要禁止掉某个搜索引擎来访的Robots.txt文件写法: User-agent: Googlebot Disallow: / 3.网站中某个文件夹不希望让搜索引擎收录的Robots.txt文件写法: User-agent: * Disallow: /admin/ Disallow: /images/ 4.禁止Google抓取网站中的图片文件: User-agent: Googlebot Disallow: /*.gif$ Robots.txt文件,是网站与搜索引擎沟通的比较重要的一个方式。 * 利用网站日志和
您可能关注的文档
最近下载
- 2021书记员考试《公文写作》100题(含解答).pdf VIP
- 中国古代体育的发展和演变.ppt VIP
- 2024年最新征信报告模板样板个人版pdf模版信用报告详细版.pdf
- 广西北海海事法院招聘聘用制书记员考试试题及答案.docx VIP
- 体育史 全套课件.PPT VIP
- 体育史 课件完整版.pptx VIP
- BS EN 12390-4-2019 Testing hardened concrete Part 4:Compressive strength – Specification for testing machines 硬化混凝土试验第4部分: 抗压强度试验机规范.pdf
- BS EN 12350-5-2019 新鲜混凝土试验.第5部分:流动表试验.pdf VIP
- BS EN 12350-4-2019 新鲜混凝土试验.第4部分:密实度.pdf VIP
- BS EN 12350-5-2019 Testing fresh concrete Part 5:Flow table test 新拌混凝土试验第5部分: 流动台试验.pdf
原创力文档


文档评论(0)