- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
User-agent 用于描述搜索引擎robot的名字 在robots.txt文件中,如果有多条user-agent记录说明有多个robot会受到“robots.txt”的限制,至少要有一条user-agent记录 如果该项的值设为*,则对任何robot均有效,在“robots.txt”文件中,user-agent这样的记录只能有一条。 表示指定下面的规则适用于那个蜘蛛 Disallow 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的整径,也可以是路径的非空前缀,以disallow项的值开头的URL不会被robot访问 如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的 禁止所有搜索引擎访问网站的任何部分 user-agent:* disallow:/ user-agent:* disallow:/cgi-bin/ 每一行必须分开写 Disallow: 允许抓取所有的内容 allow 该项的值用于描述希望访问的一组URL,与disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以allow项的值开头的URL是允许robot访问的。 允许所有的robot访问的写法有两种: User-agent:* allow:/ 另一种写法是user-agent:* disallow: User-agent: * Disallow: 或者 User-agent: * Allow: / 注意,可以最直接的建一个空文件 “Robots.txt”然后放到网站的根目录。 允许所有搜索引擎访问 01 Robots.txt文件具体写法 User-agent: * Disallow: / 或者 User-agent: * allow: 禁止所有搜索引擎访问 02 Robots.txt文件具体写法 禁止所有搜索引擎访问网站中的几个部分 03 在这里用a、b、c目录来代替 User-agent: * Disallow: /a/ Disallow: /b/ Disallow: /c/ 如果是允许,则是 Allow: /a/ Allow: /b/ Allow: /c/ User-agent: w(比如用w来代替) Disallow: / 或 User-agent: w Disallow: /d/*.htm 在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。 禁止某个搜索引擎的访问 04 Robots.txt文件具体写法 只允许某个搜索引擎的访问 05 User-agent: e(用e来代替) Disallow: 在Disallow:后面不加任何东西,意思是仅允许e访问该网站。 User-agent: * Allow: .htm$ Disallow: / 意思是仅允许访问以”.htm”为后缀的URL 使用”$”限制访问url 06 Robots.txt文件具体写法 User-agent: * Disallow: /*?* 禁止访问网站中所有的动态页面 07 User-agent: F Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ 意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。) 禁止搜索引擎F抓取网站上所有图片 08 Robots.txt文件具体写法 只允许搜索引擎E抓取网页和.gif格式图片 09 User-agent: E Allow: .gif$ Disallow: .jpg$ Disallow: .png$ 意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片 Robots.txt文件用法举例 腾讯网、淘宝网、新华网robots.txt分析 案例: 案例: 案例: Robots.txt使用 主流搜索引擎都遵守robots.txt文件指令,文件中禁止的网页,搜索引擎不会去访问。 不代表用户在搜索的时候不出现,只要有导入链接指向这个URL,搜索引擎就知道这个URL存在,虽不抓取内容,但还是会以以下几种形式显示: 1 只显示URL,没有标题、描述。 2 显示开放目录或雅虎等重要目录收录的标题和描述 3 导入链接的锚文本显示为标题和描述 4 要想完全不出现在搜索结果,可使用meta robots Meta robots Meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引文本内容。 最简单的Meta robot
您可能关注的文档
- 八年级地理上册土地资源概述.ppt
- SP咨询恒大地产集团绩效管理体系设计方案.概述.ppt
- w空间力系概述.ppt
- nk第篇++白血病之急性白血病概述.ppt
- HCI下载国内外物联网发展概况趋势及典型h.概述.ppt
- HER共识更新概述.ppt
- 伴性遗传1概述.ppt
- simulink动态系统仿真概述.ppt
- simulink动态系统建模仿真第9章概述.ppt
- GeneBank数据库使用概述.ppt
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)