robots.txt文件的格式
robots文件通常置放于根目录下,包括一条或大量的记录,这种记录根据空行分离(以CR,CR/NL, or NL做为结束符),每一条记录的格式以下所显示:
"<field>:<optional space><value><optionalspace>"
在该文件中能够应用#开展注释,实际操作方法和UNIX中的国际惯例一样。该文件中的记录一般以一行或几行User-agent刚开始,后边再加上多个Disallow和Allow行,具体情况以下:
User-agent:
此项的值用以叙述百度搜索引擎robot的姓名。在"robots.txt"文档中,如果有好几条User-agent记录表明有好几个robot会遭受"robots.txt"的限定,对该文件而言,最少要有一条User-agent记录。假如此项的值设为*,则对一切robot均合理,在"robots.txt"文档中,"User-agent:*"那样的记录只有有一条。假如在"robots.txt"文档中,添加"User-agent:SomeBot"和多个Disallow、Allow行,那麼名叫"SomeBot"只遭受"User-agent:SomeBot"后边的 Disallow和Allow行的限定。
Disallow:
此项的值用以叙述不期待被浏览的一组URL,这一值能够是一条详细的途径,还可以是途径的非前所未有缀,以Disallow项的值开始的URL不容易被 robot浏览。比如"Disallow:/help"严禁robot浏览/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则容许robot浏览/help.html、/helpabc.html,不可以浏览/help/index.html。"Disallow:"表明容许robot浏览该网址的全部url,在"/robots.txt"文档中,最少要有一条Disallow记录。假如"/robots.txt"不会有或是为空文档,则针对全部的百度搜索引擎robot,该网址全是对外开放的。
Allow:
此项的值用以叙述期待被浏览的一组URL,与Disallow项类似,这一值能够是一条详细的途径,还可以是途径的作为前缀,以Allow项的值开始的URL 是容许robot浏览的。比如"Allow:/hibaidu"容许robot浏览/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的全部URL默认设置是Allow的,因此 Allow一般与Disallow配搭应用,完成容许浏览一部分网页页面另外禁止访问其他全部URL的作用。
应用"*"and"$":Baiduspider适用使用通配符"*"和"$"来模糊匹配url。
"*" 搭配0或好几个随意标识符
"$" 搭配行结束符。
最终必须表明的是:百度搜索会严格执行robots的有关协议书,一定要注意区别您不愿被爬取或百度收录的文件目录的英文大小写,百度搜索会对robots中常写的文档和您不愿被爬取和百度收录的文件目录做精准搭配,不然robots协议书没法起效。
阅读文章文中的人还能够阅读文章:
网址为何总流量出现异常?网站访问量出现异常10大缘故(1)
什么叫爬取出现异常?网址爬取出现异常的缘故
什么叫百度搜索爬取出现异常?爬取出现异常对网址的危害有什么
标签内容: 记录 格式 文件的格式 根目录下 结束符 空行