robots-栩栩如生科技

robots.txt文件的格式有哪些？要怎么用：

robots.txt文件的格式

robots文件通常置放于根目录下，包括一条或大量的记录，这种记录根据空行分离（以CR,CR/NL, or NL做为结束符），每一条记录的格式以下所显示：
"<field>:<optional space><value><optionalspace>"

在该文件中能够应用#开展注释，实际操作方法和UNIX中的国际惯例一样。该文件中的记录一般以一行或几行User-agent刚开始，后边再加上多个Disallow和Allow行,具体情况以下：

User-agent：

此项的值用以叙述百度搜索引擎robot的姓名。在"robots.txt"文档中，如果有好几条User-agent记录表明有好几个robot会遭受"robots.txt"的限定，对该文件而言，最少要有一条User-agent记录。假如此项的值设为*，则对一切robot均合理，在"robots.txt"文档中，"User-agent:*"那样的记录只有有一条。假如在"robots.txt"文档中，添加"User-agent:SomeBot"和多个Disallow、Allow行，那麼名叫"SomeBot"只遭受"User-agent:SomeBot"后边的 Disallow和Allow行的限定。

Disallow：

此项的值用以叙述不期待被浏览的一组URL，这一值能够是一条详细的途径，还可以是途径的非前所未有缀，以Disallow项的值开始的URL不容易被 robot浏览。比如"Disallow:/help"严禁robot浏览/help.html、/helpabc.html、/help/index.html，而"Disallow:/help/"则容许robot浏览/help.html、/helpabc.html，不可以浏览/help/index.html。"Disallow:"表明容许robot浏览该网址的全部url，在"/robots.txt"文档中，最少要有一条Disallow记录。假如"/robots.txt"不会有或是为空文档，则针对全部的百度搜索引擎robot，该网址全是对外开放的。

Allow：

此项的值用以叙述期待被浏览的一组URL，与Disallow项类似，这一值能够是一条详细的途径，还可以是途径的作为前缀，以Allow项的值开始的URL 是容许robot浏览的。比如"Allow:/hibaidu"容许robot浏览/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的全部URL默认设置是Allow的，因此 Allow一般与Disallow配搭应用，完成容许浏览一部分网页页面另外禁止访问其他全部URL的作用。

应用"*"and"$"：Baiduspider适用使用通配符"*"和"$"来模糊匹配url。
"*" 搭配0或好几个随意标识符

"$" 搭配行结束符。

最终必须表明的是：百度搜索会严格执行robots的有关协议书，一定要注意区别您不愿被爬取或百度收录的文件目录的英文大小写，百度搜索会对robots中常写的文档和您不愿被爬取和百度收录的文件目录做精准搭配，不然robots协议书没法起效。

阅读文章文中的人还能够阅读文章：

网址为何总流量出现异常？网站访问量出现异常10大缘故（1）

什么叫爬取出现异常？网址爬取出现异常的缘故

什么叫百度搜索爬取出现异常？爬取出现异常对网址的危害有什么

标签内容：记录格式文件的格式根目录下结束符空行

关键词排名搜索引擎优化

robots