SEO优化教程技术分享
当前位置: > seo基础知识 > 正文

robots.txt是什么,如何写?

robots.txt文件是SEO必学基础中一个非常重要的概念,如果你不会写robots.txt文件,那么不仅会被别有用心的人利用来攻击你的网站,同时也不利于你在搜索引擎中的排名,今天北京SEO息心就来为您全面介绍robots.txt文件的使用方法以及注意事项,看完这篇文章,从此你再不用担心如何写robots.txt文件了。

 

robots.txt文件是什么

robots.txt文件是一个纯文本文件,用于限制搜索引擎对于网站页面的访问。当搜索引擎的蜘蛛访问一个站点时,首先会检查这个站点是否存在robots.txt。如果存在,就按照这个文件中规定的规则进行访问。

总结起来就是以下三点:

1、网站和搜索引擎之间的协议文件

2、蜘蛛爬行网站时第一个要访问的文件

3、屏蔽内容:不想被抓取的隐私内容、后台、插件、模板、数据库文件。表现形式就是屏蔽了网站某些路径。

robots.txt文件里必须学会的语法   1、符号

User-agent:定义搜索引擎类型

Disallow:定义禁止抓取收录地址

Allow:定义允许抓取收录地址

*:匹配0或多个任意字符

$:结束符

sitemap:网站地图提交(放在robots中的最底部)

2、搜索引擎蜘蛛符号

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

robots.txt文件的写法   1、常见写法注意事项

(1)冒号后要有一个空格

(2)Disallow要紧挨着User-agent,不要空出一行

(3)符号全是英文状态下的符号(包括空格)

(4)首字母大写

比如:

User-agent: *

Disallow: /data

Disallow: /houtai

Disallow: /include

Disallow: /templete

2、网站地图写法

比如息心这个北京SEO博客的网站地图Sitemap:

3、robots.txt文件的基本写法

禁止所有搜索引擎访问网站的任何部分:

User-agent: *

Disallow: /

允许搜索引擎访问网站全部内容:

User-agent: *

Allow: /

(或者可以建一个空robots.txt文件)

禁止所有搜索引擎访问网站中的某些文件夹:

User-agent: *

Disallow: /data/

Disallow: /houtai/

Disallow: /include/

Disallow: /templete/

(注意,尾部也要带上斜杠,否则会认为你是在禁止访问紧挨着根目录的含有该字符的文件或文件夹,这一点我在文章尾部会为您介绍)

4、容易混淆的写法

(1)屏蔽包含有tag字符的文件或文件夹:

User-agent: *

Disallow: / *tag *(*代表任意字符)

(2)屏蔽以.php为后缀的所有文件:

User-agent: *

Disallow: / *.php $ (*代表任意字符)

(3)robots.txt全站不抓取:

User-agent: *

Disallow: /

※注意:如果/后空格了再写入字符,比如Disallow: / data,也意味着全站不抓取。很多朋友有时候粗心就会多出一个空格,就算robot写的再完善还是导致全站不抓取,举例:

User-agent: *

Disallow: / data (紧挨着,千万不要空格,否则全站不抓取)

Disallow: /houtai /

Disallow: /include /

Disallow: /templete /

区别使用: “只屏蔽data文件夹中的一个文件xxx.php”与“屏蔽data文件夹的所有内容,除了文件xxx.php”

只屏蔽data文件夹中的一个文件xxx.php:

User-agent: *

Disallow: /data/xxx.php

Allow: /data/

屏蔽data文件夹的所有内容,除了文件xxx.php

User-agent: *

Disallow: /data/

Allow: /data/xxx.php

robots.txt的利弊以及解决方法   1、好处:

(1)有了robots.txt,spider抓取URL页面发生错误时则不会被重定向至404处错误页面,同时有利于搜索引擎对网站页面的收录。

(2)robots.txt可以制止我们不需要的搜索引擎占用服务器的宝贵宽带。

(3)robots.txt可以制止搜索引擎对非公开的爬行与索引,如网站的后台程序、管理程序,还可以制止蜘蛛对一些临时产生的网站页面的爬行和索引。

(4)如果网站内容由动态转换静态,而原有某些动态参数仍可以访问,可以用robots中的特殊参数的写法限制,可以避免搜索引擎对重复的内容惩罚,保证网站排名不受影响。

2、坏处:

(1)robots.txt轻松给黑客指明了后台的路径。

解决方法:给后台文件夹的内容加密,对默认的目录主文件inde.html改名为其他。

(2)如果robots.txt设置不对,将导致搜索引擎不抓取网站内容或者将数据库中索引的数据全部删除。

User-agent: *

Disallow: /

这一条就是将禁止所有的搜索引擎索引数据。

使用robots.txt文件最后要注意什么

1、robots.txt生效时间。

版权保护: 本文由 原创,转载请保留链接: http://www.seoid.cn/News/59.html

博客主人Eddy
资深SEO博主艾迪,分享搜索引擎优化的心得和经验,SEO基础知识、网站建设、网站SEO优化、网站关键词排名等等。承接网站优化推广、SEO优化外包、网站建设。
联系QQ:807523002QQ交流群:827364394

标签