AI Crawler Manager — Dokumentation
Vollständige Anleitung zum dfaicrawlermanager-Modul: Installation, visueller robots.txt Builder, HTTP 403 Blockierung, Apache/Nginx Log-Import und Strategien zur KI-Bot-Blockierung.
Überblick
AI Crawler Manager (technischer Slug: dfaicrawlermanager) gibt Ihrem PrestaShop 8 oder 9 Shop die feine Kontrolle über den Traffic von KI-Bots: OpenAI GPTBot, Anthropic ClaudeBot, Google-Extended, Applebot-Extended, PerplexityBot, ByteDance Bytespider und mehr als 25 weitere Crawler auf dem Stand von Mai 2026.
Drei komplementäre Schutzmechanismen:
- Visueller robots.txt Builder — erlauben/blockieren Sie jeden Bot per Schalter, wenden Sie eine Voreinstellung mit einem Klick an, schreiben Sie die Datei ohne Ihre manuellen Direktiven zu beschädigen.
- HTTP 403 Blockierung — für Bots, die robots.txt ignorieren (Bytespider, legacy anthropic-ai), gibt bereits bei der ersten Anfrage einen 403-Statuscode zurück, vor jeder PrestaShop-Verarbeitung.
- Crawl-Statistiken — Echtzeit-Verfolgung via Hook + Apache/Nginx Log-Import, um KI-Traffic rückwirkend zu messen.
# BEGIN DataFirefly AI Crawler Manager und # END DataFirefly AI Crawler Manager begrenzt ist. Alles andere in der Datei wird unverändert beibehalten, und bei jedem Schreibvorgang wird eine .bak-Datei erstellt.
Voraussetzungen
- PrestaShop 8.0 → 9.x
- PHP 7.4 minimum (PHP 8.0 bis 8.3 empfohlen)
- MySQL 5.7 / MariaDB 10.3 oder höher
- Schreibzugriff auf
/robots.txt(Shop-Root) - Für Log-Import: Lesezugriff auf das Apache/Nginx-Zugriffs-Log (normalerweise
/var/log/apache2/access.log, oder~/logs/bei o2switch,~/access-logs/bei cPanel)
Installation
- Laden Sie das Archiv
dfaicrawlermanager-v1.0.0.zipvon Ihrem DataFirefly-Konto herunter. - Im PrestaShop-Back-Office gehen Sie zu Module › Modul-Manager › Modul hochladen.
- Ziehen Sie das ZIP per Drag-and-Drop, warten Sie auf die Bestätigung und klicken Sie auf Installieren.
- Nach der Installation erscheint ein neuer Tab AI Crawler Manager im linken Menü (unter Konfigurieren).
Die Installation erstellt 5 Tabellen (Präfix ps_dfaicm_), füllt automatisch die Liste mit 30+ KI-Bots und fügt 6 Admin-Tabs hinzu.
composer install erforderlich. Der PSR-4 Autoloader ist im Modul unter dem Namespace DataFirefly/AiCrawlerManager eingebettet.
Erste Schritte — das Dashboard
Der Tab AI Crawler Manager öffnet das Dashboard. Bei einer frischen Installation sehen Sie:
- Verfolgte KI-Bots: 30+ (Anzahl aktiver Bots in der Datenbank)
- Blockierte Bots: 0 (standardmäßig sind alle Bots erlaubt)
- Besuche (30T): 0 (Echtzeit-Verfolgung startet erst nach Aktivierung)
- Pfadregeln: 0
Drei empfohlene Aktionen in diesem Stadium:
- Öffnen Sie den visuellen robots.txt Builder und wenden Sie eine Voreinstellung an (siehe dedizierter Abschnitt).
- Aktivieren Sie die Echtzeit-Verfolgung in den Einstellungen, um Statistiken zu sammeln.
- Optional: Importieren Sie Ihre historischen Zugriffs-Logs, um KI-Crawl-Traffic der vergangenen Wochen zu sehen.
Tab KI-Bots
Die vollständige Liste der 30+ verfolgten Bots mit:
- Anzeigename: Marketing-Name (z. B. „ClaudeBot“)
- User-Agent: exakter String, der im HTTP-Header gesucht wird
- Anbieter: Unternehmen (OpenAI, Anthropic, Google, ByteDance, Meta…)
- Zweck: training (LLM-Training), assistant (Echtzeit-Antworten), search (KI-Suchmaschine), crawl (generisch)
- Respektiert robots.txt: ja / nein (zeigt, ob robots.txt ausreichend ist)
- Status: erlaubt / blockiert
Verfügbare Aktionen:
- Bearbeiten eines Bots, um seinen Status anzupassen oder interne Notizen hinzuzufügen.
- Massenweise blockieren / entsperren über die Gruppenaktionen am Ende der Liste.
- Jede Änderung löst eine automatische robots.txt-Neugenerierung aus, wenn die entsprechende Option in den Einstellungen aktiviert ist.
Visueller robots.txt Builder
Der meistgenutzte Tab: visueller Editor für die robots.txt-Datei.
Ein-Klick-Voreinstellungen
Fünf gebrauchsfertige Strategien:
- Nur Training blockieren — stoppt training-Bots (GPTBot, ClaudeBot, anthropic-ai, CCBot, Bytespider…) und lässt assistant– und search-Bots erlaubt (ChatGPT-User, Claude-User, OAI-SearchBot…). Empfohlen für die meisten Shops.
- Strikt — blockiert training + generisches crawl, erlaubt assistant + search.
- Alle blockieren — Disallow auf allen 30+ KI-Bots.
- Alle erlauben — setzt alle Bots auf erlaubt zurück.
- Nur Bytespider blockieren — nützlich, wenn Sie nur den aggressivsten Crawler ansprechen wollen, ohne den Rest zu berühren.
Schalter pro Bot
Jeder Bot hat seinen eigenen Schalter:
- Grün = erlaubt (keine
Disallow-Direktive in robots.txt) - Rot = blockiert (Direktive
User-agent: X / Disallow: /im verwalteten Abschnitt geschrieben)
Ein gelbes „ignoriert robots.txt“-Badge markiert Bots, für die robots.txt allein unzureichend ist. Für diese aktivieren Sie auch die HTTP 403 Blockierung in den Einstellungen (siehe dedizierter Abschnitt).
Live-Vorschau
Das rechte Panel zeigt in Echtzeit den Inhalt, der in robots.txt geschrieben wird. Typische Ausgabe:
# BEGIN DataFirefly AI Crawler Manager
# Generated 2026-05-26 14:32 — do not edit manually
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Allow: /
User-agent: Bytespider
Disallow: /
# … weitere Bots …
Sitemap: https://example.com/sitemap.xml
# END DataFirefly AI Crawler Manager
Klicken Sie auf In robots.txt speichern, um die Datei zu schreiben. Bei jedem Speichern wird eine robots.txt.bak-Datei daneben erstellt.
Pfadregeln
Für feinkörnige Blockierung: einen Bot in einem Teil der Site erlauben, in einem anderen blockieren.
Typisches Beispiel: ClaudeBot auf Produktseiten erlauben (damit Claude sie empfiehlt), aber im Blog blockieren (um Ihren redaktionellen Inhalt nicht preiszugeben).
Eine Regel besteht aus:
- Bot — Zielbot (oder „alle Bots“ via Wildcard)
- Aktion —
allowoderdisallow - Pfad — URL-Muster mit Wildcard
*und End-of-String$ - Position — Auswertungsreihenfolge (spezifischste Regeln zuerst)
Beispiele für Muster:
/blog/*— jede URL, die mit/blog/beginnt/*.pdf$— alle PDF-Dateien/order*— Bestell-URLs/module/dfsavecart/*— ein spezifisches Modul
Allow: / Disallow:-Direktiven hinzugefügt, steuern aber auch die HTTP 403 Blockierung, wenn aktiviert.
HTTP 403 Blockierung
Einige Bots ignorieren absichtlich robots.txt. Der bekannteste ist Bytespider (ByteDance), zusammen mit einigen Legacy-Versionen von anthropic-ai. Für diese Bots reicht robots.txt nicht aus.
Aktivieren Sie die Option „HTTP 403 Blockierung für blockierte Bots aktivieren“ in den Einstellungen. Das Modul installiert dann einen actionDispatcherBefore-Hook, der:
- Den User-Agent bei jeder eingehenden Anfrage erkennt (In-Memory-String-Vergleich, ~0,1 ms).
- Wenn der Bot in der Block-Liste ist und die Anfrage einer Block-Regel entspricht: sofort HTTP 403 vor jeglicher PrestaShop-Initialisierung zurückgibt.
- Den Versuch in der Tabelle
ps_dfaicm_visitmit dem Flagblocked = 1protokolliert.
Statistiken und Log-Import
Der Tab Statistiken bietet eine Ansicht über 7, 30 oder 90 Tage mit:
- Globale KPIs (Gesamtbesuche, eindeutige Bots, blockierte Hits)
- Tägliches Traffic-Diagramm
- Top-Bots nach Volumen
- Top-Gecrawlte URLs
- Protokoll der 50 jüngsten Besuche (Datum, Bot, URL, IP, Status)
Echtzeit-Verfolgung
Wenn in den Einstellungen aktiviert, wird jede Anfrage geprüft, und identifizierte KI-Bot-Hits werden aufgezeichnet. Der Mehraufwand ist vernachlässigbar: weniger als 1 % des Traffics erreicht die Schreibphase.
Apache/Nginx Log-Import
Ermöglicht das rückwirkende Zählen von KI-Besuchen, einschließlich solcher von vor der Modulinstallation.
- In den Einstellungen geben Sie den Pfad zur Log-Datei ein. Das Modul bietet eine Auto-Erkennung (gängige Apache-, Nginx-, o2switch-, cPanel-Pfade).
- Wählen Sie das Format (combined standardmäßig oder common).
- Im Tab Statistiken klicken Sie auf Log jetzt analysieren.
Das Parsing ist inkrementell: ein Byte-Offset wird in der Datenbank gespeichert. Eine erneute Ausführung der Operation erzeugt keine Duplikate. Das Modul begrenzt jeden Durchlauf auf 8 MB, um Timeouts zu vermeiden; für sehr große Dateien reichen mehrere aufeinanderfolgende Durchläufe.
Um neu zu beginnen (z. B. nach einer Log-Rotation), markieren Sie Parse-Offset zurücksetzen in den Einstellungen und führen Sie die Analyse erneut aus.
Einstellungen
Zusammenfassung der verfügbaren Optionen:
robots.txt
- Automatische Neugenerierung: regeneriert robots.txt automatisch, wenn sich ein Bot oder eine Regel ändert
- Crawl-delay: empfohlene Verzögerung zwischen Anfragen (0 = deaktiviert, 1-120 Sekunden)
- Sitemap-URL: am Ende des verwalteten Abschnitts hinzugefügt
- Globaler Disallow-Abschnitt: fügt auch einen
User-agent: *-Abschnitt hinzu, der sensible Bereiche blockiert (Admin, Warenkorb, Login)
HTTP-Blockierung
- HTTP 403 Blockierung aktivieren: gibt sofort 403 für blockierte Bots zurück (siehe dedizierter Abschnitt)
Echtzeit-Verfolgung
- Verfolgung aktivieren: zeichnet jeden erkannten KI-Besuch auf
- Aufbewahrung: Anzahl der Tage, die individuelle Besuche aufbewahrt werden (7 bis 730, Standard 90). Tägliche Aggregate werden länger aufbewahrt.
Log-Import
- Log-Parsing aktivieren: aktiviert den Import-Button im Statistiken-Tab
- Dateipfad: absoluter Pfad, mit angebotener Auto-Erkennung
- Format: combined (Apache/Nginx Standard) oder common
- Parse-Offset zurücksetzen: zum erneuten Lesen der gesamten Datei markieren
Empfohlene Blockierungsstrategien
Die Wahl hängt von Ihrer redaktionellen und kommerziellen Positionierung ab. Drei typische Profile:
Standard-E-Commerce-Shop (Standardempfehlung)
Wenden Sie die Voreinstellung „Nur Training blockieren“ an. Training-Bots (GPTBot, ClaudeBot, anthropic-ai, CCBot, Bytespider) sind blockiert. Echtzeit-Assistant-Bots (ChatGPT-User, Claude-User) und KI-Suchbots (OAI-SearchBot, PerplexityBot, Google-Extended) bleiben erlaubt: Ihre Produkte können weiterhin in ChatGPT, Claude, Perplexity und Google AI Overviews empfohlen werden.
Premium-Marke / starker redaktioneller Inhalt
„Strikt“-Voreinstellung + Pfadregeln zum Erlauben bestimmter Zonen. Beispiel: alle KI-Bots überall blockieren, außer /produkt/* für ChatGPT-User und Claude-User erlaubt. Ihre Produktbeschreibungen bleiben in Assistenten referenziert, Ihr Blog und Ihre Anleitungen sind geschützt.
Shop in Startphase / geringes redaktionelles Volumen
Voreinstellung „Alle erlauben“. Die Sichtbarkeit in KI-Antwortmaschinen überwiegt das Risiko der Inhaltsabgabe. Sie wechseln zu strengerer Blockierung, sobald Ihr Katalog und Blog an Wert gewinnen.
Wartung
Automatische Bereinigung
Individuelle Besuche, die älter als die konfigurierte Aufbewahrung sind, werden bei jedem Log-Parsing automatisch gelöscht. Sie können auch eine manuelle Bereinigung aus dem Statistiken-Tab auslösen (Button „Alte Besuche löschen“).
robots.txt-Backup
Jeder Schreibvorgang erstellt eine robots.txt.bak neben der Originaldatei. Im Fehlerfall können Sie sie manuell per FTP oder über Ihr cPanel wiederherstellen.
Bot-Listen-Updates
Neue KI-Bots werden über Modul-Updates hinzugefügt. Die Tabelle ps_dfaicm_bot wird im „merge“-Modus aktualisiert: ein Bot, den Sie manuell angepasst haben, wird nie überschrieben.
Fehlerbehebung
robots.txt ist nicht beschreibbar
Das Dashboard zeigt ein rotes „Not writable“-Badge. Prüfen Sie:
- Dateirechte für
/robots.txt: muss mindestens 644 sein, und der Besitzer muss der PHP/Apache-Benutzer sein - Wenn die Datei nicht existiert, prüfen Sie die Rechte des Root-Verzeichnisses (755 + korrekter Besitzer)
- Bei einigen Shared Hostings wird robots.txt dynamisch von PrestaShop generiert: deaktivieren Sie die entsprechende Option in Einstellungen › Verkehr › SEO und URLs
Die Auto-Erkennung des Zugriffs-Logs findet nichts
Das Modul sucht in folgenden Pfaden: /var/log/apache2/access.log, /var/log/nginx/access.log, ~/logs/, ~/access-logs/. Bei anderen Hostings geben Sie den Pfad manuell ein. Wenn Sie ihn nicht kennen, kontaktieren Sie Ihren Hosting-Support oder konsultieren Sie die Dokumentation Ihres Control-Panels.
Das Log-Parsing dauert zu lange
Das Modul begrenzt jeden Durchlauf auf 8 MB, um PHP-Timeouts zu vermeiden. Für eine 500 MB-Datei rechnen Sie mit 60 bis 70 Durchläufen. Jeder Klick auf „Log jetzt analysieren“ setzt dort fort, wo der vorherige aufgehört hat, dank des gespeicherten Offsets.
Ein blockierter Bot erscheint trotzdem in den Statistiken
Das ist normal: die Echtzeit-Verfolgung zeichnet ALLE erkannten KI-Besuche auf, einschließlich blockierter (mit dem Flag was_blocked = 1). So können Sie messen, wie viele Versuche Ihre Konfiguration tatsächlich blockiert.
Ein Bot ignoriert robots.txt trotz meiner Regel
Bestätigen Sie mit einem Log-Import: wenn Sie weiterhin Hits mit Status 200 sehen, ignoriert der Bot tatsächlich robots.txt. Aktivieren Sie HTTP 403 Blockierung in den Einstellungen. Ab diesem Moment erscheinen die Hits des Bots mit Status 403 und Flag was_blocked = 1.
Deinstallation
Aus Module › Modul-Manager klicken Sie auf Deinstallieren auf der Modulkarte. Die Operation:
- Löscht die 5
ps_dfaicm_*-Tabellen - Entfernt die 6 Admin-Tabs
- Entfernt den verwalteten Abschnitt aus robots.txt (Sentinel-Marker und alles, was sie umschließen)
- Erhält den Rest von robots.txt und die
robots.txt.bak-Datei
Technische Referenz
- Technischer Slug:
dfaicrawlermanager - Namespace:
DataFirefly/AiCrawlerManager - Erstellte Tabellen:
ps_dfaicm_bot,ps_dfaicm_rule,ps_dfaicm_category_rule,ps_dfaicm_visit,ps_dfaicm_visit_daily - Verwendete Hooks:
actionDispatcherBefore,actionAdminControllerSetMedia,displayBackOfficeHeader - Back-Office-Tabs: Dashboard, Bots, Path rules, Builder, Statistics, Settings (unter AdminParentConfigure)
- Konfigurationsschlüssel:
DFAICM_AUTO_REGEN,DFAICM_VISIT_LOG,DFAICM_HTTP_BLOCK,DFAICM_LOG_PARSING,DFAICM_LOG_PATH,DFAICM_LOG_FORMAT,DFAICM_LAST_PARSE,DFAICM_LAST_OFFSET,DFAICM_RETENTION,DFAICM_CRAWL_DELAY,DFAICM_SITEMAP_URL,DFAICM_GLOBAL_DISALLOW,DFAICM_INSTALLED_AT
Support
Für technische Fragen kontaktieren Sie das DataFirefly-Team unter contact@datafirefly.com oder besuchen Sie Ihren Kundenbereich auf datafirefly.com.