Tout ce que vous voudriez savoir avant d'installer.
Un regard détaillé sur le fonctionnement de AI Crawler Manager — PrestaShop 8 & 9, pourquoi nous l'avons conçu ainsi, et la réflexion derrière les fonctionnalités ci-dessus.
Pourquoi gérer les bots IA en 2026
En deux ans, les crawlers IA sont passés du statut de curiosité à celui de premier consommateur de bande passante sur de nombreux sites e-commerce. GPTBot d OpenAI, ClaudeBot d Anthropic, Google-Extended, Applebot-Extended, PerplexityBot, Bytespider de ByteDance et une vingtaine d autres aspirent quotidiennement vos fiches produits, descriptions, prix, avis clients et articles de blog. Trois usages : entraîner les futurs grands modèles de langage, alimenter en temps réel les réponses des assistants conversationnels (ChatGPT, Claude, Perplexity), peupler les nouveaux moteurs de recherche IA.
Le problème du robots.txt manuel
Bloquer un bot IA via robots.txt suppose de connaître son user-agent exact (parfois plusieurs par éditeur, certains changeant sans annonce), de tenir cette liste à jour, et de comprendre que tous les bots ne respectent pas robots.txt. Bytespider est célèbre pour l ignorer, anthropic-ai legacy ne le respecte que partiellement. Sans outil dédié, l administrateur jongle entre fichiers texte, documentations éparpillées et logs serveur.
Ce que fait AI Crawler Manager
Le module installe 30+ bots IA pré-configurés avec leurs user-agents corrects en mai 2026, leurs documentations officielles et leur catégorie d usage (training, assistant, search, crawl). L administrateur autorise ou bloque chaque bot via un interrupteur visuel, applique un préréglage en un clic, prévisualise le robots.txt résultant et l écrit sans risque grâce aux marqueurs sentinelles qui préservent les directives manuelles existantes.
Blocage HTTP pour les bots récalcitrants
Pour les bots qui ignorent robots.txt, le hook actionDispatcherBefore détecte l user-agent dès la première requête et renvoie un code HTTP 403 avant tout traitement PrestaShop. Le serveur économise les cycles CPU, la base de données n est pas sollicitée, le bot est vraiment bloqué.
Statistiques en deux sources
Première source : le suivi temps réel via le hook PrestaShop, qui enregistre chaque visite IA détectée avec URL, IP, user-agent, statut HTTP et horodatage. Deuxième source : l import du fichier de log d accès Apache ou Nginx au format combined, avec parsing incrémental sécurisé (offset en octets stocké, jamais de relecture en double). Le module détecte automatiquement les chemins courants (slash var slash log, slash home slash logs sur o2switch, slash home slash user slash access dash logs sur cPanel).
Granularité par chemin
Pour les cas où vous voulez autoriser un bot sur certaines zones uniquement (par exemple Anthropic sur les fiches produit pour qu il les recommande dans Claude, mais pas sur le blog pour ne pas céder votre contenu éditorial), l onglet Règles permet de définir des autorisations ou interdictions par chemin URL avec patterns wildcard et fin de chaîne, exactement comme dans un robots.txt classique.
Architecture solide
PSR-4 sous namespace DataFirefly slash AiCrawlerManager, autoloader custom embarqué (aucun composer install requis au déploiement), 5 tables avec utf8mb4 et index appropriés, 6 contrôleurs admin sous AdminParentConfigure, templates Smarty séparés, CSS et JS minimalistes (graphique canvas natif, aucune dépendance externe), traductions FR et EN incluses. Compatible PrestaShop 8.0 à 9.x via legacy ModuleAdminController.
Il n’y a pas encore d’avis.