网站中robots.txt是什么？Robots协议了解

对于站长朋友来说robots.txt这个文件一定不陌生，是一个存在于网站服务器根目录下的txt文件，比如说本站robots.txt链接为www.lmdouble.com/robots.txt，里面通过robots协议规定了一些规则。robots.txt对于网站的正常运营是非常重要的，尤其现在用户上网查找内容时经过搜索引擎这个入口，那么什么是Robots协议呢？Robots.txt的作用有哪些？下面IT技术资料分享网小编为你简单介绍。

1、Robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。简单理解就是：Robots协议是搜索引擎蜘蛛爬行的一种标准，当蜘蛛来访的时候会首先检测网站根目录下是否存在Robots.txt这个文件。如果存在，它会根据Robots协议的规定，去抓取只被SEO管理允许抓取的页面，而屏蔽不需要抓取的内容，它可以理解为是蜘蛛与站点之间的桥梁。

2、Robots.txt文件样式

Robots.txt通常存放在网站跟目录，你可以登录FTP查看站点跟目录下是否存在这个文件，如果没有可以自行创建，当Robotx.txt为空的时候，它代表不为网站做任何的抓取限制。

通常Robots.txt的写法如下：

User-agent:*  

Allow:/

它表示允许抓取所有的内容，而将Allow:/替换成Disallow:/则表示禁止抓取站点所有内容。

其中值得注意的是，百度支持使用通配符"*"和"$"来模糊匹配URL，具体关于Robots.txt文件的相关设置，你可以参考百度官方文档，百度搜索资源平台->网站支持->数据监控->Robots。

同时，当你修改了相关Robots.txt文件，而并不清楚是否设置正确的时候，也可以通过上述工具进行检测。

3、Robots.txt常见问题

① 如何生成Robots.txt文件

现在网站上有很多SEO推广软件，都支持客户端自动生成Robots.txt文件，它提供了一些便利的条件，比如：自动屏蔽一些没必要的爬虫，避免浪费过多资源，以及相关栏目页面与图片等。

② 网站不收录，熊掌号不出数据

通常出现这个问题，你可以第一时间查看Robots.txt文件，是否由于操作失误，屏蔽了百度蜘蛛，导致网站不收录

③ Robots.txt与nofollow标签

有的时候当你试图屏蔽一个URL的时候，明明在Robots.txt禁止抓取了，仍然会被索引，这种情况是可能存在的，为了安全起见，你可以在<meta>标签中，添加nofollow，来达到万无一失的作用。

Robots.txt文件是一个值得站长研究的协议，它合理的调配网站资源，有利于站点运营的快速发展。

IT技术资料分享-个人整理自互联网如有侵权联系小编删除处理

上一篇: 如何设置电脑从UEFI启动？

下一篇: Windows10磁盘如何分区？如何使用系统自带磁盘管理工具分区？

网站中robots.txt是什么？Robots协议了解

win10系统如何去除此电脑首页的六个文件夹？

AIDA64序列号大全(AIDA64V1.20后)永久有效

WordPress5.0以上版本可用的火车头采集器web发布模块