GNU/Linux >> Znalost Linux >  >> Linux

Seznam povolených robotů Google, Bing, Yahoo, Yandex, Baidu v csf a mod_security

ConfigServer Security &Firewall nebo csf ve zkratce je populární řešení firewallu pro servery cPanel. V kombinaci s dobrými pravidly pro mod_security to dělá skvělou práci.

Abyste zabránili dočasnému/trvalému blokování IP adres dobrých robotů csf, měli byste upravit soubor /etc/csf/csf.rignore

####################### ##########################
# Copyright 2006-2017, Way to the Web Limited
# URL:http://www.configserver.com
# E-mail:[email protected]
####################### ##########################
# Následuje seznam domén a částečných domén, které lfd zpracovává
# sledování bude ignorováno na základě zpětného a dopředného vyhledávání DNS. Příkladem
# jeho použití je zabránit blokování webových prohledávačů lfd, např.
# .googlebot.com a .crawl.yahoo.net
#
# Musíte použít buď plně kvalifikovaný název domény (FQDN) nebo jedinečnou koncovku
# podmnožina názvu domény, která musí začínat tečkou (zástupné znaky NEJSOU
# jinak povoleno)
#
# Například následující jsou všechny platné položky:
# www.configserver.com
# .configserver.com
# .configserver.co.uk
# .googlebot.com
# .crawl.yahoo.net
# .search.msn.com
#
# Následující položky NEJSOU platné:
# *.configserver.com
# *google.com
# google.com (pokud vyhledávání není PŘESNĚ google.com bez subdomény
#
# Když je zkontrolována kandidátní IP adresa, provede se zpětné vyhledávání DNS
# IP adresu. Dopředné DNS vyhledávání je pak provedeno na výsledku z
# zpětné vyhledávání DNS. IP adresa bude ignorována pouze v případě, že:
#
# 1. Výsledky konečného vyhledávání odpovídají původní IP adrese
# A
# 2a. Výsledky vyhledávání rDNS odpovídají FQDN
# NEBO
# 2b. Výsledky vyhledávání rDNS odpovídají částečné podmnožině domény
#
# Poznámka:Pokud jsou vyhledávání DNS příliš pomalá nebo nevrací očekávané výsledky
# IP adresa se jako obvykle započítá do spouštěče blokování
#

Přidejte následující řádky do /etc/csf/csf.rignore soubor:

.googlebot.com
.crawl.yahoo.net
.search.msn.com
.google.com
.yandex.ru
.yandex.net
.yandex.com
.crawl.baidu.com
.crawl.baidu.jp

csf blokuje adresy IP, když je hostitel několikrát zablokován pravidlem mod_security. Musíme tedy jít ke kořenu problému – vytvoříme pravidla mod_security, která umožní dobrým robotům.
Za tímto účelem upravíme soubory .conf mod_security. Pokud používáte cPanel EasyApache 4, přidejte následující řádky do souboru /etc/apache2/conf.d/modsec/ modsec2.user.conf

HostnameLookups On
SecRule REMOTE_HOST "@endsWith .googlebot.com" "allow,log,id:5000001,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .google.com" "allow,log,id:5000002,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .search.msn.com" "allow,log,id:5000003,msg:'msn bot'"
SecRule REMOTE_HOST "@endsWith .crawl.yahoo.net" "allow,log,id:5000004,msg:'yahoo bot'"
SecRule REMOTE_HOST "@endsWith .yandex.ru" "allow,log,id:5000005,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.net" "allow,log,id:5000006,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.com" "allow,log,id:5000007,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.com" "allow,log,id:5000008,msg:'baidu bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.jp" "allow,log,id:5000009,msg:'baidu bot'"

Po přidání těchto řádků restartujte webový server Apache. Po nějaké době uvidíte záznamy v protokolech serveru. Stačí přejít na WHM->Centrum zabezpečení->Nástroje ModSecurity™->Seznam požadavků nebo z příkazového řádku:

root@web [/]# grep "500000" /usr/local/apache/logs/error_log | tail -30

Zdroje:
https://webmasters.googleblog.com/2006/09/how-to-verify-googlebot.html
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.xml
https://www.bing.com/webmaster/help/how-to-verify-bingbot-3905dc26
https://github.com/SpiderLabs/ModSecurity/wiki/


Linux
  1. Whitelist IP v CSF pro vzdálená připojení MySQL

  2. Seznam povolených robotů Google, Bing, Yahoo, Yandex, Baidu v csf a mod_security

  3. Nastavte Apache vhost na Ubuntu 20.04 a Debian 10

  1. Jak nainstalovat a nakonfigurovat CSF Firewall v systému Linux

  2. Jak nainstalovat a nakonfigurovat Kerberos v CentOS/RHEL 7

  3. curl:(6) Nelze vyřešit hostitel:google.com; Jméno nebo služba nejsou známy

  1. Bash =~ Regex A Https://regex101.com/?

  2. cloudHQ – Synchronizujte zdarma Google Apps a G Suite s cloudovými účty

  3. Jak nainstalovat a nakonfigurovat CSF Firewall na Debianu 11