robots.txt是搜索引擎访问网站时需要查看的第一个文件,是指定搜索引擎捕获网站内容范围的文本文件。当搜索蜘蛛访问网站时,它会首先检查网站根目录下是否有robots.txt,如果存在,访问范围会根据文件中的内容来确定。
在网站建设的过程中,我们会有一些不想被搜索引擎捕获或者不想出现在互联网上的内容,那么我们该怎么办呢?我怎么能告诉搜索引擎你不应该抓住我的xx内容?这时,robots就派上了用场。
robots.txt是搜索引擎访问网站时需要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上可以查看哪些文件。
当搜索蜘蛛访问网站时,它将首先检查网站根目录下是否存在robots.txt。如果存在,搜索蜘蛛将根据文件中的内容确定访问范围;如果文件不存在,所有搜索蜘蛛将能够访问网站上所有未受密码保护的页面。
语法:最简单的robots.txt文件使用两条规则:
User-Agent:适用以下规则的版本。
disalow:要拦截的网页。
但是我们需要注意几点:
1.robots.txt必须存储在网站的根目录中。
2.其命名必须是robots.txt,文件名必须全部小写。
3.Robots.txt是搜索引擎访问网站的第一页。
在Robots.txt中必须指明user-agent。
使用robots.txt的误区。
1:在robots.txt文件中设置所有文件都可以被搜索蜘蛛抓取,这样可以提高网站的收录率。
即使蜘蛛收录了网站中的程序脚本、样式表等文件,也不会增加网站的收录率,只会浪费服务器资源。因此,搜索蜘蛛索引这些文件必须设置在robots.txt文件中。
在robots.txt中详细介绍了哪些文件需要排除。
2:我网站上的所有文件都需要蜘蛛抓取,所以我不需要添加robots.txt文件。无论如何,如果这个文件不存在,所有搜索蜘蛛都会默认访问网站上所有没有密码保护的页面。
每当用户试图访问一个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。服务器还会在日志中记录一个404错误,所以你应该在网站上添加一个robots。
3:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件中设置所有搜索蜘蛛都无法抓取所有网页。
如果是这样的话,整个网站就不能被搜索引擎收录。
使用robots.txt的技巧。
1.每当用户试图访问一个不存在的URL时,服务器都会在日志中记录404错误(找不到文件)。服务器还会在日志中记录一个404错误,所以你应该在网站上添加一个robots。
2.网站管理员必须将蜘蛛程序远离某些服务器上的目录——确保服务器的性能。比如大部分网站服务器都有存储在cgi-bin目录下的程序,所以在robots.txt文件中加入disallow:/cgi-bin是个好主意,这样可以避免蜘蛛索引所有程序文件,节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片、背景图片等。
下面是常见的robots.txt文件:
User-agent: *
Disalow:/admin/后台管理文件。
Disalow:/template/模板文件。
Disalow:/require/程序文件。
Disalow:/images/图片。
Disalow:data/数据库文件。
disachment/附件。
Disalow:/css/样式表文件。
Disalow:/script/脚本文件。
Disalow:/lang/编码文件。
3.如果你的网站是一个动态网页,你为这些动态网页创建一个静态副本,让搜索蜘蛛更容易抓取。然后,您需要在robots.txt文件中设置它们,以避免蜘蛛对动态网页进行索引,以确保这些网页不会被视为重复内容。
4.在robots.txt文件中也可以直接包含sitemap文件的链接。就像这样:
Sitemap: http://www.easyqi.cn/sitemap.xml
目前支持这一点的搜索引擎公司包括谷歌、Yahoo、AskandMN。然而,中国的搜索引擎公司显然不在这个圈子里。这样做的好处是,站长不需要去每个搜索引擎的站长工具或类似的站长部分提交自己的站点地图文件,搜索引擎的蜘蛛会抓取robots.txt文件,读取其中的站点地图路径,然后抓取其中链接的网页。
5.合理使用robots.txt文件也可以避免访问时出错。例如,搜索者不能直接进入购物车页面。由于没有理由包括购物车,您可以在robots.txt文件中设置它,以防止搜索者直接进入购物车页面。
以上就是什么是robots.txt?的内容,更多文章关注易企优的其他相关文章!