首页 > 优化杂谈 一往情深seo

robots协议是什么 robots.txt作用有哪些?

发布时间:20-05-09优化杂谈围观77

摘要:   robots.txt这个东西,相信站长都不会陌生,这是一个协议,可以说是蜘蛛爬取规则协议,任何蜘蛛理论上都应按着这个协议指定的规则爬取(事实上,很多蜘蛛都有点耍流氓的情况,会忽视这个协议一些规则。

  robots.txt这个东西,相信站长都不会陌生,这是一个协议,可以说是蜘蛛爬取规则协议,任何蜘蛛理论上都应按着这个协议指定的规则爬取(事实上,很多蜘蛛都有点耍流氓的情况,会忽视这个协议一些规则。)。

  建立新站点,默认的情况下网站根目录中是没有robots.txt文件的,这导致很多站长忽视了robots协议,这为日后的运营,埋下隐患,比如:

  ① 新站无内容栏目,被收录,影响站点质量评定。

  ②产生大量重复页面,动态链接被抓取。

  对于新站而言,由于蜘蛛抓取频率有限,我们应该合理利用Robos协议,巧用Robots.txt文件,引导蜘蛛爬行与抓取。

robots.txt

  那么,robots协议是什么,robots.txt的作用有哪些?

  1、robots协议

  简单理解:Robots协议是搜索引擎蜘蛛爬行的一种标准,当蜘蛛来访的时候会首先检测网站根目录下是否存在robots.txt这个文件。

  如果存在,它会根据robots协议的规定,去抓取只被SEO管理允许抓取的页面,而屏蔽不需要抓取的内容,它可以理解为是蜘蛛与站点之间的桥梁。

  2、robots.txt文件样式

  robots.txt通常存放在网站跟目录,你可以登录FTP查看站点跟目录下是否存在这个文件,如果没有可以自行创建,当robotx.txt为空的时候,它代表不为网站做任何的抓取限制。

  通常robots.txt的写法如下:

  User-agent:*

  Allow:/

  它表示允许抓取所有的内容,而将Allow:/替换成Disallow:/则表示禁止抓取站点所有内容。

  其中值得注意的是,百度支持使用通配符"*"和"$"来模糊匹配URL,具体关于robots.txt文件的相关设置,你可以参考百度官方文档,百度搜索资源平台->网站支持->数据监控->Robots。

  同时,当你修改了相关robots.txt文件,而并不清楚是否设置正确的时候,也可以通过上述工具进行检测。

  3、robots.txt常见问题

  ① 如何生成robots.txt文件

  目前线上平台有很多SEO推广软件,都支持客户端自动生成robots.txt文件,它提供了一些便利的条件,比如:自动屏蔽一些没必要的爬虫,避免浪费过多资源,以及相关栏目页面与图片等。

  ② 网站不收录,熊掌号不出数据

  通常出现这个问题,你可以第一时间查看robots.txt文件,是否由于操作失误,屏蔽了百度蜘蛛,导致网站不收录

  ③ robots.txt与nofollow标签

  有的时候当你试图屏蔽一个URL的时候,明明在robots.txt禁止抓取了,仍然会被索引,这种情况是可能存在的,为了安全起见,你可以在标签中,添加nofollow,来达到万无一失的作用。

  4、robots.txt使用误区:

  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。

  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。

  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。如果这样的话,会导致整个网站不能被搜索引擎收录。

  5、引用百度百科中robots.txt的一些说明:

  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

  robots.txt文件的格式User-agent: 定义搜索引擎的类型

  Disallow: 定义禁止搜索引擎收录的地址

  Allow: 定义允许搜索引擎收录的地址

  我们常用的搜索引擎类型有:

  google蜘蛛:googlebot

  百度蜘蛛:baiduspider

  yahoo蜘蛛:slurp

  alexa蜘蛛:ia_archiver

  msn蜘蛛:msnbot

  altavista蜘蛛:scooter

  lycos蜘蛛:lycos_spider_(t-rex)

  alltheweb蜘蛛:fast-webcrawler

  inktomi蜘蛛: slurp

  robots.txt文件的写法

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有的动态页面

  Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  一往情深seo点评:

  robots.txt文件是网站优化极为重要的,站长应该花些时间多了解下这方面的知识,这样才能在往后的优化中更加得心应手。


Tags:

相关文章