小辉网络社区致力于优质软件,活动线报,游戏辅助,绿色工具等资源共享,好货不私藏!

robots.txt蜘蛛爬虫协议详细指南

小辉工作室 SEO优化

什么是robots.txt? robots.txt是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

robots.txt语法:
1 允许所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent: * 
Disallow: 
或者 
User-agent: * 
Allow: / 
注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
2  禁止所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent: * 
Disallow: /
3  只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
robots.txt写法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
注意:路径后面有斜杠和没有斜杠的区别:
比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽。
4  屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
robots.txt写法如下:
User-agent: *
Disallow: /templets
Allow: /main
5  禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)
robots.txt写法如下:
User-agent: *
Disallow: html/*.php
6  仅允许访问某目录下某个后缀的文件,则使用“$”
robots.txt写法如下:
User-agent: *
Allow: .html$
Disallow: /
7  禁止索引网站中所有的动态页面 比如这里限制的是有“?”的域名,例如index.php?id=1
robots.txt写法如下:
User-agent: *
Disallow: /?
8  禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加) 有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。 
robots.txt写法如下: 
User-agent: * 
Disallow: .jpg$ 
Disallow: .jpeg$ 
Disallow: .gif$ 
Disallow: .png$ 
Disallow: .bmp$
以上就是robots.txt爬虫协议的写法

温馨提示:如有转载或引用以上内容请将本文链接作为出处标注!百度未收录

免责声明:本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序,请支持正版,购买注册,得到更好的正版服务。侵删请致信E-mail:431228450@qq.com

标签 暂无标签
资源分享
评论列表