robots.txt文件问题攻略大全

robots.txt文件问题攻略大全,本文中小六SEO将大家常遇到的关于robots.txt文件的相关问题进行汇总 ,希望大家又长知识了 。 1、robots.txt是什么? 解答:robots.txt是一个纯文本文件。简单说...

robots.txt文件问题攻略大全,本文中小六SEO将大家常遇到的关于robots.txt文件的相关问题进行汇总 ,希望大家又长知识了 。

1、robots.txt是什么?

解答:robots.txt是一个纯文本文件。简单说就是一个互联网协议,是针对搜索引擎蜘蛛抓取网站时的一个提前声明。通过robots.txt文件告诉蜘蛛,该网站的哪些文件你能访问抓取 ,哪些文件不要去访问抓取,从而规避一些隐私文件或不想被收录的文件被蜘蛛爬取到,起到一个引导蜘蛛的作用 。

搜索引擎蜘蛛爬取网站的第一个文件会优先选择robots.txt文件 ,所以在引导蜘蛛时robots.txt文件就显得尤为重要。

robots.txt文件很重要

2 、robots.txt写法

解答:robots.txt文件的写法,小六SEO在《robots编写秘籍》一文中有详细的说明,这里做几个重点说明。

user-agent: 这里的星号 ,代表泛指所有的搜索引擎,如需要特指某个蜘蛛,则将各个搜索引擎蜘蛛的名称写下即可 。

各大常用搜索引擎蜘蛛名称如下:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

热土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360搜蜘蛛:360spider


屏蔽所有蜘蛛写法:

user-agent:

disallow: /

提示:这里的斜杠代表网站根目录。


屏蔽单个搜索引擎蜘蛛写法(如屏蔽谷歌):

user-agent:googlebot

Disallow: /


屏蔽单个目录:

user-agent:

Disallow: /a/

提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目录下的所有文件。


屏蔽单个页面:

user-agent:

Disallow: /123.html


屏蔽某一类后缀文件(如jpg图片):

user-agent:

Disallow: /.jpg


屏蔽某个指定二级域名:

user-agent:

Disallow: http(s)://123.seo-6.com


释放已屏蔽目录中的某个文件:


  • 发表于 2021-03-29 18:00
  • 阅读 ( 226 )
  • 分类:互联网

0 条评论

请先 登录 后评论
zhuquanyou
zhuquanyou

726 篇文章

你可能感兴趣的文章

相关问题