网站中robots.txt是什么?Robots协议了解

  • 内容
  • 评论
  • 相关
网站中robots.txt是什么?Robots协议了解
对于站长朋友来说robots.txt这个文件一定不陌生,是一个存在于网站服务器根目录下的txt文件,比如说本站robots.txt链接为www.lmdouble.com/robots.txt,里面通过robots协议规定了一些规则。robots.txt对于网站的正常运营是非常重要的,尤其现在用户上网查找内容时经过搜索引擎这个入口,那么  什么是Robots协议呢?Robots.txt的作用有哪些?  下面IT技术资料分享网小编为你简单介绍。
1、Robots协议  
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。简单理解就是:Robots协议是搜索引擎蜘蛛爬行的一种标准,当蜘蛛来访的时候会首先检测网站根目录下是否存在Robots.txt这个文件。 如果存在,它会根据Robots协议的规定,去抓取只被SEO管理允许抓取的页面,而屏蔽不需要抓取的内容,它可以理解为是蜘蛛与站点之间的桥梁。  
2、Robots.txt文件样式  
Robots.txt通常存放在网站跟目录,你可以登录FTP查看站点跟目录下是否存在这个文件,如果没有可以自行创建,当Robotx.txt为空的时候,它代表不为网站做任何的抓取限制。  
通常Robots.txt的写法如下:  
User-agent:*  

Allow:/  
它表示允许抓取所有的内容,而将Allow:/替换成Disallow:/则表示禁止抓取站点所有内容。  
其中值得注意的是,百度支持使用通配符"*"和"$"来模糊匹配URL,具体关于Robots.txt文件的相关设置,你可以参考百度官方文档,百度搜索资源平台->网站支持->数据监控->Robots。  
同时,当你修改了相关Robots.txt文件,而并不清楚是否设置正确的时候,也可以通过上述工具进行检测。  
3、Robots.txt常见问题  
① 如何生成Robots.txt文件  
现在网站上有很多SEO推广软件,都支持客户端自动生成Robots.txt文件,它提供了一些便利的条件,比如:自动屏蔽一些没必要的爬虫,避免浪费过多资源,以及相关栏目页面与图片等。  
② 网站不收录,熊掌号不出数据  
通常出现这个问题,你可以第一时间查看Robots.txt文件,是否由于操作失误,屏蔽了百度蜘蛛,导致网站不收录  
③ Robots.txt与nofollow标签  
有的时候当你试图屏蔽一个URL的时候,明明在Robots.txt禁止抓取了,仍然会被索引,这种情况是可能存在的,为了安全起见,你可以在<meta>标签中,添加nofollow,来达到万无一失的作用。  
Robots.txt文件是一个值得站长研究的协议,它合理的调配网站资源,有利于站点运营的快速发展。
IT技术资料分享-个人整理自互联网 如有侵权联系小编删除处理

 

上一篇: 下一篇:
关注本站微信公众号


仍未解决?点击远程协助
win10纯净版系统安装教程
关闭
关注本站

扫一扫,关注本站微信公众号