SEO细节:使用robots文件屏蔽垃圾蜘蛛(垃圾蜘蛛对服务器资源的占用超级大)

发布于:2023-05-29 16:06:32

今天公司的一个服务器CPU达到100%,负载状态也是100%,本来是2核4g的配置,升级到4核8G了还是没有用,如下图:

通过命令行排查发现mysql对CPU占用高达327%:

通过禁用垃圾蜘蛛和mysql性能优化把服务器的性能调整好了

垃圾蜘蛛对我们的网站服务器影响还是顶大的。那么什么是垃圾蜘蛛?

垃圾蜘蛛定义

垃圾蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站资源带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。

垃圾蜘蛛列表

 AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。

Bytespider,是头条搜索蜘蛛,我们做外贸网站就用不到,,遵循robots协议。

SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。

PetalBot,是 Petal 搜索引擎(华为花瓣搜索引擎)的自动程序,对我们没有任何用处,遵循robots协议。

YandexBot,是俄罗斯一家搜索引擎公司的搜索引擎蜘蛛,不是俄语站,可以屏蔽掉,遵循robots协议。

DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽

MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。

MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

......

屏蔽方法

对于遵循robots协议的蜘蛛,可以直接在robots.txt禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了

User-agent: AhrefsBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: SemrushBot

Disallow: /

User-agent: Applebot

Disallow: /

User-agent: YandexBot

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: Facebot

Disallow: /

User-agent: Amazonbot

Disallow: /

User-agent: Preload Bot

Disallow: /

User-agent: spider

Disallow: /

User-agent: DuckDuckGo-Favicons-Bot

Disallow: /

User-agent: Qwantify

Disallow: /

User-agent: t3versionsBot

Disallow: /

User-agent: crawler

Disallow: /

User-agent: faq-crawler

Disallow: /

User-agent: Uptimebot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: Mail.Ru

Disallow: /

User-agent: SeznamBot

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: aiHitBot

Disallow: /

User-agent: Researchscan

Disallow: /

User-agent: DnyzBot

Disallow: /

User-agent: spbot

Disallow: /

User-agent: 2ip bot

Disallow: /

User-agent: webprosbot

Disallow: /

User-agent: CensysInspect

Disallow: /

User-agent: Internet-structure-research-project-bot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: bot

Disallow: /

User-agent: ZaldomoSearchBot

Disallow: /

User-agent: Nicecrawler

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: aiHitBot

Disallow: /

User-agent: RyteBot

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: Adsbot

Disallow: /

User-agent: tracking bot

Disallow: /

User-agent: KomodiaBot

Disallow: /

User-agent: domainsbot

Disallow: /

User-agent: TelegramBot

Disallow: /

User-agent: vuhuvBot

Disallow: /

User-agent: HuaweiWebCatBot

Disallow: /

User-agent: web spider

Disallow: /

User-agent: YisouSpider

Disallow: /

User-agent: LightspeedSystemsCrawler

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: PetalBot

Disallow: /

User-agent: Uptimebot

Disallow: /

User-agent: RepoLookoutBot

Disallow: /

到这基本能屏蔽掉大部分常见的垃圾蜘蛛了,对于不遵守robots协议的垃圾蜘蛛,我们通过日志分析,找到对应的IP,通过防火墙屏蔽掉就可以。


免责声明:本站所有内容及图片均采集来源于网络,并无商业使用,如若侵权请联系删除。

上一篇:6个免费好用的简历模板下载网站,各行各业的简历模板都能找到

下一篇:国人WordPress:模板建站和开发网站的区别有哪些?

资讯 观察行业视觉,用专业的角度,讲出你们的心声。
MORE

I NEED TO BUILD WEBSITE

我需要建站

*请认真填写需求信息,我们会在24小时内与您取得联系。