有些细心的网友会发现,我们的网站可能还没有流量或者流量不大的时候,但是有些时候会负载比较大,甚至可以通过日志看到很多无用的爬虫抓取。比如有国外搜索蜘蛛爬取,有些是采集蜘蛛爬取。我们是否可以通过一些技术手段屏蔽呢?这里我们使用较多的还是Nginx,通过user_agent屏蔽和限制访问。
在这篇文章中,小编准备通过记录一些 user_agent 屏蔽限制实例记录如何控制的。有些可能也是我们以后需要用到的,顺带记录收集做个笔记。
禁止空agent的浏览器访问
UA类型 | 描述 |
ApacheBench | 性能压测 |
WebBench | 性能压测 |
WinHttp | 采集cc |
HttpClient | tcp攻击 |
Jmeter | 压力测试 |
BOT/0.1 (BOT for JCE) | sql注入 |
CrawlDaddy | sql注入 |
Indy Library | 扫描 |
ZmEu phpmyadmin | 扫描 |
Microsoft URL Control | 扫描 |
jaunty | wordpress扫描器 |
Java | 内容采集 |
Python-urllib | 内容采集 |
Jullo | 内容采集 |
FeedDemon | 内容采集 |
Feedly | 内容采集 |
UniversalFeedParser | 内容采集 |
Alexa Toolbar | 内容采集 |
Swiftbot | 无用爬虫 |
YandexBot | 无用爬虫 |
AhrefsBot | 无用爬虫 |
jikeSpider | 无用爬虫 |
MJ12bot | 无用爬虫 |
oBot | 无用爬虫 |
FlightDeckReports Bot | 无用爬虫 |
Linguee Bot | 无用爬虫 |
EasouSpider | 无用爬虫 |
YYSpider | 无用爬虫 |
根据需要进行判断和屏蔽。这里在看一些常见爬虫的User-Agent
百度爬虫
Baiduspider+(+http://www.baidu.com/search/spider.htm”)
Google爬虫
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别中国和美国爬虫)
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)
新浪爱问爬虫
iaskspider/2.0(+http://iask.com/help/help_index.html”)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫
Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易爬虫
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )
MSN爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm”)