如同淘宝网类似,屏蔽了百度蜘蛛抓取了淘宝网,当然我们做网站优化的一般情况下是不需要屏蔽百度蜘蛛的,但是在必要的时候,我们也会使用到屏蔽蜘蛛的时候,比如说网站的登入页面与注册页面或者是动态页面都需要通过屏蔽蜘蛛抓取。以免权重分散。下面来介绍几个屏蔽百度蜘蛛抓取的方法
淘宝网就是使用了这种技术来屏蔽百度抓取的,所以我们可以看到,在淘宝网的robots文件里面有一句这样的话:
User-agent: baiduspider
Disallow: /
其目的就是屏蔽百度蜘蛛抓取淘宝网的任意一个页面,但是这种方法屏蔽的并不是很完全,我们在百度搜索“淘宝网”还是会出现官方网站的。
robots Meta标签也可以屏蔽搜索引擎抓取,这种方法与robots类似,但是还是部分搜索引擎不支持,robots Meta用来对某几个页面单独设置时使用。其代码是写在“
…”之间,如下所示:
…
如果说使用robor无法全部屏蔽你的网站,那么你可以.htaccess屏蔽代码如下:
方法1:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]
方法2:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
许多空间商为了减少服务器负担,故意屏蔽蜘蛛抓取,导致网站无法被搜索引擎收录,在这里我们也可以设置利用服务器屏蔽搜索器的抓取。主要原理是分析网站日志,找到搜索引擎抓取的IP,然后对其IP进行屏蔽。但是这种方法并不是很实用,毕竟不能屏蔽单页面和修改都不是很灵活。具体方法需要参考服务器设置。
总结:方法众多,只是在这里写出来供大家参考,个人觉得最使用的还是robots文件,所以其他几种方法及时可用,但是还是建议不要去做。
79736 篇文章