百度内容机器人工作原理

很多人非常清楚,做优化需要些原创,内容排版好、定时定量发布,但是对于这些操作没有人知道是为什么要这样做。好吧,今天分析的干货是,告诉大家百度搜索引擎识别内容机

很多人非常清楚,做优化需要些原创,内容排版好、定时定量发布,但是对于这些操作没有人知道是为什么要这样做。好吧,今天分析的干货是,告诉大家百度搜索引擎识别内容机器人的工作原理。

我整天瞎忙

1、爬行

想要搜索引擎识别你的内容,必须要搜索引擎来爬取你的内容,这个时候不建议内容出现robots屏蔽或nofollow禁止抓取,通过搜索引擎正常的抓取,搜索引擎将会把我们的内容进行分类,同时对照网页相同内容结构分析,通过相同内容分析判断是否原创内容,最终确定内容的主体。

2、打分

在判断内容的主体之后,搜索引擎会给内容一个初级打分,打分主要通过文字内容及用户对此页面的停留时间来判断,比如1000字文章原本正常阅读时间为5分钟,可进来的IP仅阅读10秒钟就退出了,那将判断为低质量内容,其中主要识别此类数据是通过统计工具及搜索情况,如有安装统计的网站,搜索引擎可直接判断网站的质量,如未安装统计工具的朋友,搜索引擎会通过用户的搜索退出率来判断,如:当用户搜索某一个词来到你的站点,立马退出后继续搜索这个词进入下一个站点之后在无搜索相关词,搜索引擎将会判断你的网站质量不如下一个。

3、分类

通过打分系统对文章质量的判断后,搜索引擎将会对文章进行仔细分类,将不同的文章,分类到不同的行业库中,这就是我们常说的,网站做什么行业就更新什么内容的原因了。当我们写了一篇质量非常高的网站,发布在与自己并无相关性的站点,那再好的文章质量,也会被搜索引擎列为零。搜索引擎也不会将文章分配到其他行业内容上。当然,有人会说,有些论坛什么行业都可以发,一样有排名,这里我可以这么说,这些论坛都是常年积累了百度对其论坛的信任,所以在这一点较有优势,之所以每一个论坛都在改版广告区,有的取消广告区,有的使用robots屏蔽广告区等方法,其原因就是因为行业不相关。

4、释放

通过搜索引擎的初级爬行、通过内容质量的对比、通过行业相关的分类,最终搜索引擎将会对文章进行释放,那么在释放的时候,有些文章排名直接靠前,有些文章却远远不见排名,其中主要原因是内容的需求与稀缺性。例如:当微信公众平台刚刚出来的时候,很多人想知道微信公众账号的注册方法,但是网络上没有一篇这样的文章,而你是第一个更新这篇文章的,那么你就有需求质量与需求的优势参与排名。

PS:以上内容,仅为我个人判断,并不代表百度官方的看法,同时百度经常因为页面干扰无法爬取到内容,所以判断为空页面。

什么页面会干扰爬取?

相信很多人会想看到此文的附加干货吧,经过我的测试,很多页面均被搜索引擎认为空白页面,而无法爬行,下面是我做出的以下几个测试,被列为垃圾页面,并不收录。

第二屏还见不到主体内容:类似于这种方法的一般出现于黑帽技术中,但也有部分的网站有类似的情况,我所见到过一个婚纱照网站一直说收录不好,其中文章内页的主体内容却出现在第三屏,这里我建议各位朋友,请把主体内容放置到第一屏的中心位置,以便用户阅读。试想一下,辛辛苦苦的把文章都写出来了,何必还藏着掖着。

空白页面过多:什么是空白页面呢?并不是说404就是空白页面,空白页面包括无内容的页面,想一般情况网站的登入注册页面、企业站的关于我们、联系我们等,均列入空白页面。类似于这种空白页面,均不建议搜索引擎来收录,也不建议用来做排名,如果是企业站点,类似这种空白页面还算少,如果是论坛或者问答等大型站点,那这种空白页面就非常多了,很多人喜欢把tag分类,一个tag一个页面一篇文章,其实不建议大家这样做,而是建议大家把tag整合方便用户去流量。也方便搜索引擎去抓取TAG。

内容藏的太深:一般的情况下,想要让搜索快速收录你的文章,均建议你推荐到首页,很多人喜欢把文章藏到栏目下的栏目列表,这样的情况下,搜索引擎的爬取是非常困难的。理论上,搜索引擎仅能爬取三个链接,也就是说,当搜索引擎来到你的首页,可爬取首页下的链接及链接下的链接,却不能进行多次爬取了。所以我们的核心内容不建议放置到最深处,而是直接推荐出来。

人工干扰:不用多说,人工干扰爬行主要是通过robots和nofollow来屏蔽的,robots可以直接屏蔽搜索引擎的收录,nofollow是用来直接屏蔽搜索引擎的爬行。

总结:SEO不在是单一的搜索引擎优化排名,百度也不是单一的依靠内容和外链就可以收录的,百度机器人可能越来越人性化了。

  • 发表于 2021-02-23 07:50
  • 阅读 ( 313 )
  • 分类:互联网

0 条评论

请先 登录 后评论