IA Bot war: on BOT en touche ?
dimanche 2 novembre 2025 à 12:23
Les IA qui butinent broutent comme des vaches sur nos serveurs semblent poser de plus en plus de problèmes à tout le monde, si on en croit masto et la river...
Symptômes
- durées de visite anormales dans les logs (millisecondes par exemple)
- pics de connexions inexpliqués et violents
Risques
- vol de données et détournement du contenu
- pertes de performance voire plantage du serveur
- inflation dantesque des fichiers logs
- frais supplémentaires
Bref, les crawlers des IA sont comme les IA elles-mêmes: de la merde envahissant et ressourçophage...

Quelles solutions pour lutter ?
le robot.txt : 👍 facile - 👎 efficace que pour ceux qui jouent le jeu
En gros, on joue sur la détection du user-agent, pas forcément fiable puisqu'il est simple de le modifier.
voir https://alyze.info/Blog/le-fichier-robots-txt-ia , https://sebsauvage.net/links/?hyKnfA & https://github.com/ai-robots-txt/ai.robots.txt/blob/main/robots.txt
IP & htaccess : 👍 efficace avec les bots connus - 👎 plus ardu, besoin de mises à jour
On bloque des IP ou des plages d'IP dont on sait qu'elles sont utilisées par les bots.
Premier problème, obtenir une liste de ces plages d'IP... second problème, la garder à jour. Sans compter que le fait de bidouiller le htaccess quand on est un peu noob n'est pas sans danger ou prises de tête...
voir https://chemicloud.com/kb/article/block-bad-bots-and-spiders-using-htaccess/
action user : 👍 efficace - 👎 chiant pour le visiteur et js obligatoire
Pour faire simple, on attend une action du visiteur avant de lui servir la page: un captcha par exemple... Mais il faut JS et se faire chmir à cliquer sur des machins...
une appli tierce de blocage 👍 efficace - 👎 ardu pour le webmestre amateur
On a entendu parler d'Anubis ( https://sebsauvage.net/links/?ZFvxlg ) que je n'ai pas testé mais qui détecte qu'un BOT en est un en faisant remplir une «preuve de travail» au navigateur. Même s'ils bossent dessus, le problème, pour les gens un sensibles comme nous, reste qu'il faut JS activé... et que ça semble un peu poilu à configurer...
Même chose pour goaway (https://git.gammaspectra.live/git/go-away) qui semble fonctionner comme un reverse proxy...

que je veuille une solution simple à installer en PHP qui permette de filtrer raisonnablement les bots en question...
Il faut déjà détecter le bot:
- avec le useragent -même si ce n'est pas la panacée-,
- via son IP -avec une mise à jour régulière -,
- grâce à la fréquence de visite: lors des pics, il peut y avoir beaucoup connexions en très peu de temps, ce qu'un humain ne pourrait pas faire...
ensuite il faut lutter contre le bot
- soit en le bloquant carrément: peu de charge pour le serveur mais le bot va réitérer ses tentatives de connexions,
- soit en lui envoyant un header (too many connections / moved permanently ) : peu de charge et [peut-être] plus de demandes de connexion...
Mais on peut bien sûr choisir de lutter, au prix d'un peu de charge serveur:
- générer du blabla incohérent à l'aide d'un lorem ipsum aléatoire,
- générer des expressions fantaisistes à partir d'un jargonneur afin que l'IA ne puisse pas filtrer le bruit,
- générer un labyrinthe de liens dans lequel elle se perdra,
- renvoyer une page statique simple, légère, avec le texte pollueur,
- rediriger la demande vers un autre site afin que ce soit lui qui se bouffe la charge (un GAFAM dans l'idéal
) - rendre les données très lentement
- faire une zipbomb
Exemple de zip-bomb. (Votre serveur envoie 10 Mo, côté client ça se décompresse en 10 Go côté client. La plupart des bots qui scannent les sites web supportent la compression gzip et chargeront bien volontier ce fichier. Et comme ils sont mal développés, ils vont planter. (En principe, que vous développez un client http, il faut coder la quantité de données maximales de données que vous allez lire d'une requête http. Par exemple, il n'est généralement pas utile de charger plus de 20 Mo pour une image. Par défaut, ce n'est pas limité.) (via https://shaarli.zoemp.be/shaare/mx1lcg) Une autre manière de répondre aux bots, c'est d'envoyer les données, mais très lentement. Ça ne consomme que peu de ressources côté serveur, mais côté client il va attendre les données.
dd if=/dev/zero bs=1G count=10 | gzip -c > 10GB.gz
<?php
if (ipIsBlackListed() || isMalicious()) {
header("Content-Encoding: gzip");
header("Content-Length: "+ filesize(ZIP_BOMB_FILE_10G)); // 10 MB
readfile(ZIP_BOMB_FILE_10G);
exit;
}
?>
une bidouille perso : antibotai


Donc, c'est un petit script PHP dont je préfère vous annoncer de suite qu'il s'agit plus d'une proof of concept que d'un truc à intégrer dans l'immédiat...
Toutefois
- il permet de détecter les user-agents de bots IA
- il gère les adresses IP et les plages d'IP
- il détecte les fréquences de connexions trop rapides
- en cas de bot, on peut choisir:
- le blocage par header (404 etc)
- la redirection automatique vers une URL de son choix
- la pollution par retour de bruit (lorem ipsum aléatoire mélangeant des mots français, anglais et espagnols...)
On gère la configuration par des constantes:
- en précisant un code HTML dans
HEADER_CODE_FOR_BOTS, antibotai boutera le bot avec le header correspondant. - sinon,
REDIRECT_TO_URLpeut contenir une URL de redirection USE_CONNECTION_FREQUENCY,USE_USERAGENTetUSE_IP, s'ils sont à TRUE, vont déclencher les diverses détections correspondantes.POLLUTE_LENGTH(nombre de mots) qui, s'il n'est pas vide génère un texte de pollution
Afin de pouvoir contrôler l'efficacité du bouzin, il y a un fichier log (LOGFILE) ce qui m'a permis de voir que ça avait fonctionné pour quelques bots au moins:

Limite constatée
Si une page de votre site redirige automatiquement vers une autre, antibotai peut penser qu'il s'agit d'un bot car la fonction is_too_quick_to_be_honest() va détecter deux accès trop rapides pour la même ip... Il m'a fallu adapter ce script pour le cas précis de ces redirections.
Je n'ai pas tout testé mais si le coeur vous en dit: de mon côté j'ai pas le temps: rien que pour TERMINER cet article -commencé il y a un moment - j'ai été interrompu pour : réparer un vélux, réparer une fuite de douche, couper les cheveux et préparer à manger... (en plus des interruptions diverses habituelles
)
Sources diverses:
- https://www.ethersys.fr/actualites/20240918-bloquer-les-bots-ia/
- https://sebsauvage.net/links/?hyKnfA
- https://sebsauvage.net/links/?ZFvxlg
- https://chemicloud.com/kb/article/block-bad-bots-and-spiders-using-htaccess/
- https://git.gammaspectra.live/git/go-away
- https://anubis.techaro.lol/
- https://idiallo.com/blog/zipbomb-protection / https://shaarli.zoemp.be/shaare/mx1lcg
Téléchargement
Le zip est à récupérer là http://cdn.warriordudimanche.net/antibotai.zip
Il contient :
- antibotai.php qui est le script à appeler au début de page.
- base.php, un fichier texte contenant simplement les mots à utiliser pour polluer
- ip.php contenant les ip à détecter
- useragents.php qui fait de même avec les user-agents.
► Commentaires




