PrestaShop Intelligence Artificielle

AI Crawler Manager — PrestaShop 8 & 9

Reprenez le contrôle des bots IA qui scrapent votre boutique

Les crawlers IA aspirent vos fiches produits pour entraîner les LLM, peupler les assistants conversationnels et alimenter les moteurs de recherche IA. Avec AI Crawler Manager, vous reprenez la main : 30+ bots IA suivis et identifiables en un clic, robots.txt visual builder, blocage HTTP 403 pour les bots qui ignorent robots.txt, statistiques temps réel du crawl IA.

PrestaShop 8 PrestaShop 9 Multilingue Multi-boutique RGPD
  • Remboursement 30 jours
  • 12 mois de mises à jour
  • Support 24h
www.datafirefly.com/
AI Crawler Manager — PrestaShop 8 & 9
v1.0.0 · mis à jour 2026-05-26
Ce que ça fait

La version courte.

01

30+ bots IA suivis 2026

OpenAI (GPTBot, ChatGPT-User, OAI-SearchBot), Anthropic (ClaudeBot, Claude-Web, anthropic-ai), Google-Extended, Apple (Applebot-Extended), Perplexity, ByteDance (Bytespider), Meta (Meta-ExternalAgent), Mistral, xAI, Cohere, Amazon, Common Crawl, You.com, Diffbot, DuckAssistBot, Kagi, et plus encore.

02

Robots.txt visual builder

Basculez chaque bot en autorisé ou bloqué via un interrupteur, appliquez un préréglage en un clic (block training, strict, block all, allow all, block Bytespider), prévisualisez le robots.txt en live, écrivez le fichier sans toucher au reste.

03

Blocage HTTP 403

Certains bots ignorent robots.txt (Bytespider, anthropic-ai legacy). Le blocage HTTP renvoie un 403 avant même le rendu de la page, économise les ressources serveur et empêche réellement le scraping.

04

Blocage sélectif par chemin

Autorisez par exemple ClaudeBot sur les fiches produit mais bloquez-le sur le blog. Patterns wildcard étoile et fin de chaîne dollar à la robots.txt classique.

05

Statistiques de crawl

Tableau de bord avec KPI (visites 30j, bots distincts, hits bloqués), graphique de trafic quotidien, top bots, top URLs visitées, journal des visites récentes avec IP et statut.

06

Import des logs Apache et Nginx

Lit votre fichier de log d accès au format combined pour comptabiliser rétroactivement les visites IA, même celles d avant l installation. Parsing incrémental avec offset stocké : aucun doublon, relectures sûres. Auto-détection des chemins courants (o2switch, cPanel, Apache, Nginx).

La version longue

Tout ce que vous voudriez savoir avant d'installer.

Un regard détaillé sur le fonctionnement de AI Crawler Manager — PrestaShop 8 & 9, pourquoi nous l'avons conçu ainsi, et la réflexion derrière les fonctionnalités ci-dessus.

§ 01

Pourquoi gérer les bots IA en 2026

En deux ans, les crawlers IA sont passés du statut de curiosité à celui de premier consommateur de bande passante sur de nombreux sites e-commerce. GPTBot d OpenAI, ClaudeBot d Anthropic, Google-Extended, Applebot-Extended, PerplexityBot, Bytespider de ByteDance et une vingtaine d autres aspirent quotidiennement vos fiches produits, descriptions, prix, avis clients et articles de blog. Trois usages : entraîner les futurs grands modèles de langage, alimenter en temps réel les réponses des assistants conversationnels (ChatGPT, Claude, Perplexity), peupler les nouveaux moteurs de recherche IA.

§ 02

Le problème du robots.txt manuel

Bloquer un bot IA via robots.txt suppose de connaître son user-agent exact (parfois plusieurs par éditeur, certains changeant sans annonce), de tenir cette liste à jour, et de comprendre que tous les bots ne respectent pas robots.txt. Bytespider est célèbre pour l ignorer, anthropic-ai legacy ne le respecte que partiellement. Sans outil dédié, l administrateur jongle entre fichiers texte, documentations éparpillées et logs serveur.

§ 03

Ce que fait AI Crawler Manager

Le module installe 30+ bots IA pré-configurés avec leurs user-agents corrects en mai 2026, leurs documentations officielles et leur catégorie d usage (training, assistant, search, crawl). L administrateur autorise ou bloque chaque bot via un interrupteur visuel, applique un préréglage en un clic, prévisualise le robots.txt résultant et l écrit sans risque grâce aux marqueurs sentinelles qui préservent les directives manuelles existantes.

§ 04

Blocage HTTP pour les bots récalcitrants

Pour les bots qui ignorent robots.txt, le hook actionDispatcherBefore détecte l user-agent dès la première requête et renvoie un code HTTP 403 avant tout traitement PrestaShop. Le serveur économise les cycles CPU, la base de données n est pas sollicitée, le bot est vraiment bloqué.

§ 05

Statistiques en deux sources

Première source : le suivi temps réel via le hook PrestaShop, qui enregistre chaque visite IA détectée avec URL, IP, user-agent, statut HTTP et horodatage. Deuxième source : l import du fichier de log d accès Apache ou Nginx au format combined, avec parsing incrémental sécurisé (offset en octets stocké, jamais de relecture en double). Le module détecte automatiquement les chemins courants (slash var slash log, slash home slash logs sur o2switch, slash home slash user slash access dash logs sur cPanel).

§ 06

Granularité par chemin

Pour les cas où vous voulez autoriser un bot sur certaines zones uniquement (par exemple Anthropic sur les fiches produit pour qu il les recommande dans Claude, mais pas sur le blog pour ne pas céder votre contenu éditorial), l onglet Règles permet de définir des autorisations ou interdictions par chemin URL avec patterns wildcard et fin de chaîne, exactement comme dans un robots.txt classique.

§ 07

Architecture solide

PSR-4 sous namespace DataFirefly slash AiCrawlerManager, autoloader custom embarqué (aucun composer install requis au déploiement), 5 tables avec utf8mb4 et index appropriés, 6 contrôleurs admin sous AdminParentConfigure, templates Smarty séparés, CSS et JS minimalistes (graphique canvas natif, aucune dépendance externe), traductions FR et EN incluses. Compatible PrestaShop 8.0 à 9.x via legacy ModuleAdminController.