日志中发现很多爬虫:
“Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)”
可以是,是一个良心爬虫,但是爬的规则有点傻,本来没什么新内容,但是一直爬。其官方声称:
我们关心您网站的性能,绝不会对其造成伤害!
BLEXbot是非常易于使用的搜寻器。抓取网站时,我们尽可能将其设为“温和”:每3秒仅发出1个请求,如果您的robots.txt文件中指定了另一个抓取延迟,则发出请求的频率甚至更低。BLEXbot遵守您在robots.txt文件中指定的规则。
如果出现任何问题,则可能是由于您的特定站点的特性,或与您链接的另一个站点上的错误所致。因此,我们想问您,如果您发现BLEXbot有任何问题,请将其报告给customercare@webmeup.com。我们将为您的特定站点快速进行唯一设置,以便爬网不会影响您站点的性能。
同时可以通过robots.txt 进行封锁:
封锁网站的特定目录:
User-agent: BLEXBot
Disallow: /private/
Disallow: /messages/
封锁整个网站:
User-agent: BLEXBot
Disallow: /
减缓爬行速度:
User-agent: BLEXBot
Crawl-delay: 10