首页 蜘蛛爬虫 禁止的垃圾蜘蛛,网站优化加速屏蔽国外垃圾无用蜘蛛,防止抓取导致带宽占用!

禁止的垃圾蜘蛛,网站优化加速屏蔽国外垃圾无用蜘蛛,防止抓取导致带宽占用!

经常会被一些网络恶意垃圾蜘蛛或网络爬虫骚扰,导致自己的流量整天被刷,有的更夸张的是每天被几十个垃圾爬虫和蜘蛛不断刷自己流量,直接导致网站宕机都有可能出现。下面虾皮路就分享一下屏蔽恶意垃圾蜘蛛爬虫从而加速网站访问,保护网站不被恶意刷流量。..

常见的网络恶意垃圾爬虫蜘蛛

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

建站需要禁止的垃圾蜘蛛名单!毫无用处浪费服务器宽带资源。

第一种办法,伪静态

在宝塔的伪静态中插入

if ( $http_user_agent ~ AhrefsBot ){

   return 403;

}

if ( $http_user_agent ~ YandexBot ){

   return 403;

}

if ( $http_user_agent ~ MJ12bot ){

   return 403;

}

if ( $http_user_agent ~ DotBot ){

   return 403;

}

if ( $http_user_agent ~ RU_Bot ){

   return 403;

}

if ( $http_user_agent ~ Ezooms ){

   return 403;

}

if ( $http_user_agent ~ Yeti ){

   return 403;

}

if ( $http_user_agent ~ BLEXBot ){

   return 403;

}

if ( $http_user_agent ~ Exabot ){

   return 403;

}

if ( $http_user_agent ~ YisouSpider ){

   return 403;

}

if ( $http_user_agent ~ sandcrawlerbot ){

   return 403;

}

if ( $http_user_agent ~ ShopWiki ){

   return 403;

}

if ( $http_user_agent ~ Genieo ){

   return 403;

}

if ( $http_user_agent ~ Aboundex ){

   return 403;

}

if ( $http_user_agent ~ coccoc ){

   return 403;

}

if ( $http_user_agent ~ MegaIndex ){

   return 403;

}

if ( $http_user_agent ~ spbot ){

   return 403;

}

if ( $http_user_agent ~ SemrushBot ){

   return 403;

}

if ( $http_user_agent ~ TwengaBot ){

   return 403;

}

if ( $http_user_agent ~ SEOkicks-Robot ){

   return 403;

}

if ( $http_user_agent ~ WordPress ){

   return 403;

}

if ( $http_user_agent ~ BUbiNG ){

   return 403;

}

if ( $http_user_agent ~ PetalBot ){

   return 403;

}

if ( $http_user_agent ~ Adsbot ){

   return 403;

}

if ( $http_user_agent ~ NetcraftSurveyAgent ){

   return 403;

}

if ( $http_user_agent ~ Barkrowler ){

   return 403;

}

if ( $http_user_agent ~ serpstatbot ){

   return 403;

}

if ( $http_user_agent ~ MegaIndex.ru ){

   return 403;

}

if ( $http_user_agent ~ DataForSeoBot ){

   return 403;

}

if ( $http_user_agent ~ Amazonbot ){

   return 403;

}

if ( $http_user_agent ~ ClaudeBot ){

   return 403;

}

if ( $http_user_agent ~ GPTBot ){

   return 403;

}

=========================

在所有的伪静态前面插入!


第二个办法:创建robots.txt,插入以下代码

User-agent: AhrefsBot

Disallow: /

User-agent: YandexBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: RU_Bot

Disallow: /

User-agent: Yeti

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: YisouSpider

Disallow: /

User-agent: sandcrawlerbot

Disallow: /

User-agent: Genieo

Disallow: /

User-agent: Aboundex

Disallow: /

User-agent: MegaIndex

Disallow: /

User-agent: spbot

Disallow: /

User-agent: TwengaBot

Disallow: /

User-agent: SEOkicks-Robot

Disallow: /

User-agent: BUbiNG

Disallow: /

User-agent: PetalBot

Disallow: /

User-agent: NetcraftSurveyAgent

Disallow: /

User-agent: Barkrowler

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: DataForSeoBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: GPTBot

=======================

第一个方法垃圾蜘蛛访问直接403禁止访问!

第二个方法是直接告诉他不欢迎他。

10

站星网

常见的网络恶意垃圾爬虫蜘蛛1、MJ12BotMJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做S..

为您推荐

SemrushBot 是什么?了解其作用及是否需要屏蔽的全面指南

在网站管理和搜索引擎优化(SEO)领域,了解各种网络爬虫的作用至关重要。其中,SemrushBot 是由知名 SEO 工具平台 SEMrush 推出的网络爬虫,其主要功能是自动发现和收集互联网上的新网页数据,以供 SEMrush 的各种 ..

搜索引擎蜘蛛IP地址大全

搜索引擎ASN数据iP段iP归属地Spider & Robot UserAgent相关资料百度 baidu.comAS4808AS4808AS4808AS55967AS23724AS23724AS23724AS4134AS4837AS4837AS13770261.135.0.0/16123.125.0.0/16111.206.0.0/16180.76.0.0/201..

Crawlee 下一代网络爬虫与浏览器自动化工具

在数字化时代,数据是企业决策和创新的基石。网络爬虫作为获取数据的重要工具,其重要性不言而喻。今天,我们将深入探讨Crawlee,一个为Node.js环境设计的先进网络爬虫和浏览器自动化库,它如何帮助开发者构建快速、..

c# 爬虫组件有哪些?

在C#中,有许多用于构建爬虫(网络爬虫)的组件和库,它们可以帮助您从网页上抓取数据。以下是一些常用的C#爬虫组件和库:HtmlAgilityPack:这是一个流行的HTML解析库,可用于从HTML页面中提取数据。它可以帮助您遍..

网站防止爬虫采集的方法有哪些?

网站防采集是一种常见的保护措施,用于防止恶意程序或自动化工具通过抓取网站上的数据。以下是一些常见的网站防采集方法:Robots.txt文件:通过在网站根目录下放置robots.txt文件,可以告诉搜索引擎爬虫或其他抓取工..

通过Linux命令分析Nginx日志得知百度蜘蛛的爬行情况

前言做网站的目的就是将自己的信息展示给目标用户,最直接的就是通过搜索引擎搜索展示。针对搜索引擎也需要优化,也就是我们说的SEO优化,新站长可能会特别关注蜘蛛爬行的次数、频率等,而做好网站SEO优化的第一步就..

开源高性能.NET爬虫框架Abot用法示例

Abot简介Abot 是一个开源的 C# 网络爬虫框架,它的特点是速度快和灵活。 它负责低级管道(多线程、http 请求、调度、链接解析等)。开发者只需要注册事件即可处理页面数据。功能特性免费开源轻量级,速度快支持定制..

发表回复

返回顶部

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制
星辰影视-2025热门免费影视短剧平台熊猫影视-2025热门免费影视短剧平台番茄影视-2025热门免费影视短剧平台星光电影-2025热门免费影视短剧平台蜂鸟影院-2025热门免费影视短剧平台熊猫影视 - 全网高清免费影片聚合平台萝卜影院-2025热门电影电视剧免费在线播放-全站无广告高速播放下载樱花影院-2025热门免费影视短剧平台琪琪影视-2025热门免费影视短剧平台火影电影网-2025热门免费影视短剧平台悟空电影-2025热门免费影视短剧平台西瓜影院-2025热门免费影视短剧平台星空电影网-2025热门免费影视短剧平台好看电影网-2025热门免费影视短剧平台无忧影视网_高清影视在线观看分享平台_最新最全的免费影视短剧大全年钻网超清视界 - 全网高清免费短剧聚合平台极影公社-2025热门电影电视剧免费在线播放至尊影院-最新热门短剧免费电影网站_高清影视无弹窗极速播放星光电影-2025热门免费影视短剧平台河马影视-最新热门火爆的免费影视网站_高清影视夸克迅雷网盘下载叮当影视网-2025热门高清免费影视短剧分享平台70影视网 - 最新电影、电视剧、短剧、免费在线观看麻花影视网 - 高清免费聚合电影网西瓜影院-最新热门电影电视剧免费在线播放开心追剧网2048影视资源论坛-2048P.Com青青影视网-2025热门高清免费影视短剧分享平台八哥电影网_最新vip电影大全_热播电视剧_全网优质影视免费在线观看_老牌的免费在线影院_www.886958.com人人看电影-热播电视剧_2025年最新电影_人人影院高清在线免费观看天天影视网-高清免费电影、电视剧、短剧在线观看星辰影视-最新热门无广告的免费电影网站_高清影视无弹窗极速播放电影天堂爱看影院追剧达人U系列网盘资源橙子影视网天堂影视网天堂影视神马影院网大众影视网星辰影视网