反击爬虫，前端工程师的脑洞能够有多大？

关于一张网页，咱们往往期望它是结构杰出，内容明晰的，这样搜索引擎才干精确地认知它。

而反过来，又有一些情形，咱们不期望内容能被容易获取，比方说电商网站的交易额，教育网站的标题等。由于这些内容，往往是一个产品的生命线，有必要做到有用地维护。这便是爬虫与反爬虫这一论题的由来。

可是世界上没有一个网站，能做到完美地反爬虫。

假如页面期望能在用户面前正常展现，一起又不给爬虫时机，就有必要要做到辨认真人与机器人。因而工程师们做了各种测验，这些战略大多采用于后端，也是现在比较惯例单有用的手法，比方：

User-Agent + Referer检测账号及Cookie验证验证码 IP约束频次

而爬虫是能够无限逼近于真人的，比方：

chrome headless或phantomjs来模仿浏览器环境 tesseract 辨认验证码署理IP淘宝就能买到

[1] [2] [3] [4] [5] [6] [7] 黑客接单网

0 条评论