robots.txt文件问题攻略大全

robots.txt文件问题攻略大全，本文中小六SEO将大家常遇到的关于robots.txt文件的相关问题进行汇总，希望大家又长知识了。

1、robots.txt是什么？

解答：robots.txt是一个纯文本文件。简单说就是一个互联网协议，是针对搜索引擎蜘蛛抓取网站时的一个提前声明。通过robots.txt文件告诉蜘蛛，该网站的哪些文件你能访问抓取，哪些文件不要去访问抓取，从而规避一些隐私文件或不想被收录的文件被蜘蛛爬取到，起到一个引导蜘蛛的作用。

搜索引擎蜘蛛爬取网站的第一个文件会优先选择robots.txt文件，所以在引导蜘蛛时robots.txt文件就显得尤为重要。

2 、robots.txt写法

解答：robots.txt文件的写法，小六SEO在《robots编写秘籍》一文中有详细的说明，这里做几个重点说明。

user-agent: 这里的星号，代表泛指所有的搜索引擎，如需要特指某个蜘蛛，则将各个搜索引擎蜘蛛的名称写下即可。

各大常用搜索引擎蜘蛛名称如下：

google蜘蛛：googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

bing蜘蛛：bingbot

altavista蜘蛛：scooter

lycos蜘蛛：lycos_spider_(t-rex)

alltheweb蜘蛛：fast-webcrawler

inktomi蜘蛛：slurp

有道蜘蛛：YodaoBot和OutfoxBot

热土蜘蛛：Adminrtspider

搜狗蜘蛛：sogou spider

SOSO蜘蛛：sosospider

360搜蜘蛛：360spider

屏蔽所有蜘蛛写法：

user-agent:

disallow: /

提示：这里的斜杠代表网站根目录。

屏蔽单个搜索引擎蜘蛛写法（如屏蔽谷歌）：

user-agent:googlebot

Disallow: /

屏蔽单个目录：

user-agent:

Disallow: /a/

提示：若a后面不加斜杠/a，表示以a形成的所有文件都屏蔽；加斜杠/a/表示只代表a目录下的所有文件。

屏蔽单个页面：

user-agent:

Disallow: /123.html

屏蔽某一类后缀文件（如jpg图片）：

user-agent:

Disallow: /.jpg

屏蔽某个指定二级域名:

user-agent:

Disallow: http(s)://123.seo-6.com

释放已屏蔽目录中的某个文件：

发表于 2021-03-29 18:00
阅读 ( 233 )
分类：互联网

robots.txt文件问题攻略大全

0 条评论

你可能感兴趣的文章

相关问题