今天公司的一个服务器CPU达到100%,负载状态也是100%,本来是2核4g的配置,升级到4核8G了还是没有用,如下图:
通过命令行排查发现mysql对CPU占用高达327%:
通过禁用垃圾蜘蛛和mysql性能优化把服务器的性能调整好了
垃圾蜘蛛对我们的网站服务器影响还是顶大的。那么什么是垃圾蜘蛛?
垃圾蜘蛛定义
垃圾蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站资源带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。
垃圾蜘蛛列表
AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
Bytespider,是头条搜索蜘蛛,我们做外贸网站就用不到,,遵循robots协议。
SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
PetalBot,是 Petal 搜索引擎(华为花瓣搜索引擎)的自动程序,对我们没有任何用处,遵循robots协议。
YandexBot,是俄罗斯一家搜索引擎公司的搜索引擎蜘蛛,不是俄语站,可以屏蔽掉,遵循robots协议。
DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽
MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。
MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议
......
屏蔽方法
对于遵循robots协议的蜘蛛,可以直接在robots.txt禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了
User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Facebot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Preload Bot
Disallow: /
User-agent: spider
Disallow: /
User-agent: DuckDuckGo-Favicons-Bot
Disallow: /
User-agent: Qwantify
Disallow: /
User-agent: t3versionsBot
Disallow: /
User-agent: crawler
Disallow: /
User-agent: faq-crawler
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: 2ip bot
Disallow: /
User-agent: webprosbot
Disallow: /
User-agent: CensysInspect
Disallow: /
User-agent: Internet-structure-research-project-bot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: bot
Disallow: /
User-agent: ZaldomoSearchBot
Disallow: /
User-agent: Nicecrawler
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: RyteBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: Adsbot
Disallow: /
User-agent: tracking bot
Disallow: /
User-agent: KomodiaBot
Disallow: /
User-agent: domainsbot
Disallow: /
User-agent: TelegramBot
Disallow: /
User-agent: vuhuvBot
Disallow: /
User-agent: HuaweiWebCatBot
Disallow: /
User-agent: web spider
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: LightspeedSystemsCrawler
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: RepoLookoutBot
Disallow: /
到这基本能屏蔽掉大部分常见的垃圾蜘蛛了,对于不遵守robots协议的垃圾蜘蛛,我们通过日志分析,找到对应的IP,通过防火墙屏蔽掉就可以。
免责声明:本站所有内容及图片均采集来源于网络,并无商业使用,如若侵权请联系删除。