PS PrestaShop PrestaShop Mittel

AI Crawler Manager — Dokumentation

Vollständige Anleitung zum dfaicrawlermanager-Modul: Installation, visueller robots.txt Builder, HTTP 403 Blockierung, Apache/Nginx Log-Import und Strategien zur KI-Bot-Blockierung.

Aktualisiert 29. Juni 2026 Modulversion 1.0.0

Überblick

AI Crawler Manager (technischer Slug: dfaicrawlermanager) gibt Ihrem PrestaShop 8 oder 9 Shop die feine Kontrolle über den Traffic von KI-Bots: OpenAI GPTBot, Anthropic ClaudeBot, Google-Extended, Applebot-Extended, PerplexityBot, ByteDance Bytespider und mehr als 25 weitere Crawler auf dem Stand von Mai 2026.

Drei komplementäre Schutzmechanismen:

Visueller robots.txt Builder — erlauben/blockieren Sie jeden Bot per Schalter, wenden Sie eine Voreinstellung mit einem Klick an, schreiben Sie die Datei ohne Ihre manuellen Direktiven zu beschädigen.
HTTP 403 Blockierung — für Bots, die robots.txt ignorieren (Bytespider, legacy anthropic-ai), gibt bereits bei der ersten Anfrage einen 403-Statuscode zurück, vor jeder PrestaShop-Verarbeitung.
Crawl-Statistiken — Echtzeit-Verfolgung via Hook + Apache/Nginx Log-Import, um KI-Traffic rückwirkend zu messen.

Hinweis — Das Modul berührt Ihre robots.txt niemals außerhalb seines eigenen Abschnitts, der durch die Sentinel-Marker # BEGIN DataFirefly AI Crawler Manager und # END DataFirefly AI Crawler Manager begrenzt ist. Alles andere in der Datei wird unverändert beibehalten, und bei jedem Schreibvorgang wird eine .bak-Datei erstellt.

Voraussetzungen

PrestaShop 8.0 → 9.x
PHP 7.4 minimum (PHP 8.0 bis 8.3 empfohlen)
MySQL 5.7 / MariaDB 10.3 oder höher
Schreibzugriff auf /robots.txt (Shop-Root)
Für Log-Import: Lesezugriff auf das Apache/Nginx-Zugriffs-Log (normalerweise /var/log/apache2/access.log, oder ~/logs/ bei o2switch, ~/access-logs/ bei cPanel)

Installation

Laden Sie das Archiv dfaicrawlermanager-v1.0.0.zip von Ihrem DataFirefly-Konto herunter.
Im PrestaShop-Back-Office gehen Sie zu Module › Modul-Manager › Modul hochladen.
Ziehen Sie das ZIP per Drag-and-Drop, warten Sie auf die Bestätigung und klicken Sie auf Installieren.
Nach der Installation erscheint ein neuer Tab AI Crawler Manager im linken Menü (unter Konfigurieren).

Die Installation erstellt 5 Tabellen (Präfix ps_dfaicm_), füllt automatisch die Liste mit 30+ KI-Bots und fügt 6 Admin-Tabs hinzu.

Tipp — Kein composer install erforderlich. Der PSR-4 Autoloader ist im Modul unter dem Namespace DataFirefly/AiCrawlerManager eingebettet.

Erste Schritte — das Dashboard

Der Tab AI Crawler Manager öffnet das Dashboard. Bei einer frischen Installation sehen Sie:

Verfolgte KI-Bots: 30+ (Anzahl aktiver Bots in der Datenbank)
Blockierte Bots: 0 (standardmäßig sind alle Bots erlaubt)
Besuche (30T): 0 (Echtzeit-Verfolgung startet erst nach Aktivierung)
Pfadregeln: 0

Drei empfohlene Aktionen in diesem Stadium:

Öffnen Sie den visuellen robots.txt Builder und wenden Sie eine Voreinstellung an (siehe dedizierter Abschnitt).
Aktivieren Sie die Echtzeit-Verfolgung in den Einstellungen, um Statistiken zu sammeln.
Optional: Importieren Sie Ihre historischen Zugriffs-Logs, um KI-Crawl-Traffic der vergangenen Wochen zu sehen.

Tab KI-Bots

Die vollständige Liste der 30+ verfolgten Bots mit:

Anzeigename: Marketing-Name (z. B. „ClaudeBot“)
User-Agent: exakter String, der im HTTP-Header gesucht wird
Anbieter: Unternehmen (OpenAI, Anthropic, Google, ByteDance, Meta…)
Zweck: training (LLM-Training), assistant (Echtzeit-Antworten), search (KI-Suchmaschine), crawl (generisch)
Respektiert robots.txt: ja / nein (zeigt, ob robots.txt ausreichend ist)
Status: erlaubt / blockiert

Verfügbare Aktionen:

Bearbeiten eines Bots, um seinen Status anzupassen oder interne Notizen hinzuzufügen.
Massenweise blockieren / entsperren über die Gruppenaktionen am Ende der Liste.
Jede Änderung löst eine automatische robots.txt-Neugenerierung aus, wenn die entsprechende Option in den Einstellungen aktiviert ist.

Visueller robots.txt Builder

Der meistgenutzte Tab: visueller Editor für die robots.txt-Datei.

Ein-Klick-Voreinstellungen

Fünf gebrauchsfertige Strategien:

Nur Training blockieren — stoppt training-Bots (GPTBot, ClaudeBot, anthropic-ai, CCBot, Bytespider…) und lässt assistant– und search-Bots erlaubt (ChatGPT-User, Claude-User, OAI-SearchBot…). Empfohlen für die meisten Shops.
Strikt — blockiert training + generisches crawl, erlaubt assistant + search.
Alle blockieren — Disallow auf allen 30+ KI-Bots.
Alle erlauben — setzt alle Bots auf erlaubt zurück.
Nur Bytespider blockieren — nützlich, wenn Sie nur den aggressivsten Crawler ansprechen wollen, ohne den Rest zu berühren.

Wichtig — Eine Voreinstellung überschreibt den Status aller betroffenen Bots. Eine Bestätigung wird vor der Anwendung angefordert. Sie können anschließend Bot für Bot feinabstimmen.

Schalter pro Bot

Jeder Bot hat seinen eigenen Schalter:

Grün = erlaubt (keine Disallow-Direktive in robots.txt)
Rot = blockiert (Direktive User-agent: X / Disallow: / im verwalteten Abschnitt geschrieben)

Ein gelbes „ignoriert robots.txt“-Badge markiert Bots, für die robots.txt allein unzureichend ist. Für diese aktivieren Sie auch die HTTP 403 Blockierung in den Einstellungen (siehe dedizierter Abschnitt).

Live-Vorschau

Das rechte Panel zeigt in Echtzeit den Inhalt, der in robots.txt geschrieben wird. Typische Ausgabe:

# BEGIN DataFirefly AI Crawler Manager
# Generated 2026-05-26 14:32 — do not edit manually

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Allow: /

User-agent: Bytespider
Disallow: /

# … weitere Bots …

Sitemap: https://example.com/sitemap.xml
# END DataFirefly AI Crawler Manager

Klicken Sie auf In robots.txt speichern, um die Datei zu schreiben. Bei jedem Speichern wird eine robots.txt.bak-Datei daneben erstellt.

Pfadregeln

Für feinkörnige Blockierung: einen Bot in einem Teil der Site erlauben, in einem anderen blockieren.

Typisches Beispiel: ClaudeBot auf Produktseiten erlauben (damit Claude sie empfiehlt), aber im Blog blockieren (um Ihren redaktionellen Inhalt nicht preiszugeben).

Eine Regel besteht aus:

Bot — Zielbot (oder „alle Bots“ via Wildcard)
Aktion — allow oder disallow
Pfad — URL-Muster mit Wildcard * und End-of-String $
Position — Auswertungsreihenfolge (spezifischste Regeln zuerst)

Beispiele für Muster:

/blog/* — jede URL, die mit /blog/ beginnt
/*.pdf$ — alle PDF-Dateien
/order* — Bestell-URLs
/module/dfsavecart/* — ein spezifisches Modul

Hinweis — Pfadregeln werden zu robots.txt als standard Allow: / Disallow:-Direktiven hinzugefügt, steuern aber auch die HTTP 403 Blockierung, wenn aktiviert.

HTTP 403 Blockierung

Einige Bots ignorieren absichtlich robots.txt. Der bekannteste ist Bytespider (ByteDance), zusammen mit einigen Legacy-Versionen von anthropic-ai. Für diese Bots reicht robots.txt nicht aus.

Aktivieren Sie die Option „HTTP 403 Blockierung für blockierte Bots aktivieren“ in den Einstellungen. Das Modul installiert dann einen actionDispatcherBefore-Hook, der:

Den User-Agent bei jeder eingehenden Anfrage erkennt (In-Memory-String-Vergleich, ~0,1 ms).
Wenn der Bot in der Block-Liste ist und die Anfrage einer Block-Regel entspricht: sofort HTTP 403 vor jeglicher PrestaShop-Initialisierung zurückgibt.
Den Versuch in der Tabelle ps_dfaicm_visit mit dem Flag blocked = 1 protokolliert.

Tipp — HTTP-Blockierung spart CPU- und Datenbankressourcen für die volumenstärksten Bots. Bytespider kann mehrere Tausend Hits pro Tag auf einem durchschnittlichen Shop ausmachen.

Statistiken und Log-Import

Der Tab Statistiken bietet eine Ansicht über 7, 30 oder 90 Tage mit:

Globale KPIs (Gesamtbesuche, eindeutige Bots, blockierte Hits)
Tägliches Traffic-Diagramm
Top-Bots nach Volumen
Top-Gecrawlte URLs
Protokoll der 50 jüngsten Besuche (Datum, Bot, URL, IP, Status)

Echtzeit-Verfolgung

Wenn in den Einstellungen aktiviert, wird jede Anfrage geprüft, und identifizierte KI-Bot-Hits werden aufgezeichnet. Der Mehraufwand ist vernachlässigbar: weniger als 1 % des Traffics erreicht die Schreibphase.

Apache/Nginx Log-Import

Ermöglicht das rückwirkende Zählen von KI-Besuchen, einschließlich solcher von vor der Modulinstallation.

In den Einstellungen geben Sie den Pfad zur Log-Datei ein. Das Modul bietet eine Auto-Erkennung (gängige Apache-, Nginx-, o2switch-, cPanel-Pfade).
Wählen Sie das Format (combined standardmäßig oder common).
Im Tab Statistiken klicken Sie auf Log jetzt analysieren.

Das Parsing ist inkrementell: ein Byte-Offset wird in der Datenbank gespeichert. Eine erneute Ausführung der Operation erzeugt keine Duplikate. Das Modul begrenzt jeden Durchlauf auf 8 MB, um Timeouts zu vermeiden; für sehr große Dateien reichen mehrere aufeinanderfolgende Durchläufe.

Um neu zu beginnen (z. B. nach einer Log-Rotation), markieren Sie Parse-Offset zurücksetzen in den Einstellungen und führen Sie die Analyse erneut aus.

Einstellungen

Zusammenfassung der verfügbaren Optionen:

robots.txt

Automatische Neugenerierung: regeneriert robots.txt automatisch, wenn sich ein Bot oder eine Regel ändert
Crawl-delay: empfohlene Verzögerung zwischen Anfragen (0 = deaktiviert, 1-120 Sekunden)
Sitemap-URL: am Ende des verwalteten Abschnitts hinzugefügt
Globaler Disallow-Abschnitt: fügt auch einen User-agent: *-Abschnitt hinzu, der sensible Bereiche blockiert (Admin, Warenkorb, Login)

HTTP-Blockierung

HTTP 403 Blockierung aktivieren: gibt sofort 403 für blockierte Bots zurück (siehe dedizierter Abschnitt)

Echtzeit-Verfolgung

Verfolgung aktivieren: zeichnet jeden erkannten KI-Besuch auf
Aufbewahrung: Anzahl der Tage, die individuelle Besuche aufbewahrt werden (7 bis 730, Standard 90). Tägliche Aggregate werden länger aufbewahrt.

Log-Import

Log-Parsing aktivieren: aktiviert den Import-Button im Statistiken-Tab
Dateipfad: absoluter Pfad, mit angebotener Auto-Erkennung
Format: combined (Apache/Nginx Standard) oder common
Parse-Offset zurücksetzen: zum erneuten Lesen der gesamten Datei markieren

Empfohlene Blockierungsstrategien

Die Wahl hängt von Ihrer redaktionellen und kommerziellen Positionierung ab. Drei typische Profile:

Standard-E-Commerce-Shop (Standardempfehlung)

Wenden Sie die Voreinstellung „Nur Training blockieren“ an. Training-Bots (GPTBot, ClaudeBot, anthropic-ai, CCBot, Bytespider) sind blockiert. Echtzeit-Assistant-Bots (ChatGPT-User, Claude-User) und KI-Suchbots (OAI-SearchBot, PerplexityBot, Google-Extended) bleiben erlaubt: Ihre Produkte können weiterhin in ChatGPT, Claude, Perplexity und Google AI Overviews empfohlen werden.

Premium-Marke / starker redaktioneller Inhalt

„Strikt“-Voreinstellung + Pfadregeln zum Erlauben bestimmter Zonen. Beispiel: alle KI-Bots überall blockieren, außer /produkt/* für ChatGPT-User und Claude-User erlaubt. Ihre Produktbeschreibungen bleiben in Assistenten referenziert, Ihr Blog und Ihre Anleitungen sind geschützt.

Shop in Startphase / geringes redaktionelles Volumen

Voreinstellung „Alle erlauben“. Die Sichtbarkeit in KI-Antwortmaschinen überwiegt das Risiko der Inhaltsabgabe. Sie wechseln zu strengerer Blockierung, sobald Ihr Katalog und Blog an Wert gewinnen.

Wartung

Automatische Bereinigung

Individuelle Besuche, die älter als die konfigurierte Aufbewahrung sind, werden bei jedem Log-Parsing automatisch gelöscht. Sie können auch eine manuelle Bereinigung aus dem Statistiken-Tab auslösen (Button „Alte Besuche löschen“).

robots.txt-Backup

Jeder Schreibvorgang erstellt eine robots.txt.bak neben der Originaldatei. Im Fehlerfall können Sie sie manuell per FTP oder über Ihr cPanel wiederherstellen.

Bot-Listen-Updates

Neue KI-Bots werden über Modul-Updates hinzugefügt. Die Tabelle ps_dfaicm_bot wird im „merge“-Modus aktualisiert: ein Bot, den Sie manuell angepasst haben, wird nie überschrieben.

Fehlerbehebung

robots.txt ist nicht beschreibbar

Das Dashboard zeigt ein rotes „Not writable“-Badge. Prüfen Sie:

Dateirechte für /robots.txt: muss mindestens 644 sein, und der Besitzer muss der PHP/Apache-Benutzer sein
Wenn die Datei nicht existiert, prüfen Sie die Rechte des Root-Verzeichnisses (755 + korrekter Besitzer)
Bei einigen Shared Hostings wird robots.txt dynamisch von PrestaShop generiert: deaktivieren Sie die entsprechende Option in Einstellungen › Verkehr › SEO und URLs

Die Auto-Erkennung des Zugriffs-Logs findet nichts

Das Modul sucht in folgenden Pfaden: /var/log/apache2/access.log, /var/log/nginx/access.log, ~/logs/, ~/access-logs/. Bei anderen Hostings geben Sie den Pfad manuell ein. Wenn Sie ihn nicht kennen, kontaktieren Sie Ihren Hosting-Support oder konsultieren Sie die Dokumentation Ihres Control-Panels.

Das Log-Parsing dauert zu lange

Das Modul begrenzt jeden Durchlauf auf 8 MB, um PHP-Timeouts zu vermeiden. Für eine 500 MB-Datei rechnen Sie mit 60 bis 70 Durchläufen. Jeder Klick auf „Log jetzt analysieren“ setzt dort fort, wo der vorherige aufgehört hat, dank des gespeicherten Offsets.

Ein blockierter Bot erscheint trotzdem in den Statistiken

Das ist normal: die Echtzeit-Verfolgung zeichnet ALLE erkannten KI-Besuche auf, einschließlich blockierter (mit dem Flag was_blocked = 1). So können Sie messen, wie viele Versuche Ihre Konfiguration tatsächlich blockiert.

Ein Bot ignoriert robots.txt trotz meiner Regel

Bestätigen Sie mit einem Log-Import: wenn Sie weiterhin Hits mit Status 200 sehen, ignoriert der Bot tatsächlich robots.txt. Aktivieren Sie HTTP 403 Blockierung in den Einstellungen. Ab diesem Moment erscheinen die Hits des Bots mit Status 403 und Flag was_blocked = 1.

Deinstallation

Aus Module › Modul-Manager klicken Sie auf Deinstallieren auf der Modulkarte. Die Operation:

Löscht die 5 ps_dfaicm_*-Tabellen
Entfernt die 6 Admin-Tabs
Entfernt den verwalteten Abschnitt aus robots.txt (Sentinel-Marker und alles, was sie umschließen)
Erhält den Rest von robots.txt und die robots.txt.bak-Datei

Technische Referenz

Technischer Slug: dfaicrawlermanager
Namespace: DataFirefly/AiCrawlerManager
Erstellte Tabellen: ps_dfaicm_bot, ps_dfaicm_rule, ps_dfaicm_category_rule, ps_dfaicm_visit, ps_dfaicm_visit_daily
Verwendete Hooks: actionDispatcherBefore, actionAdminControllerSetMedia, displayBackOfficeHeader
Back-Office-Tabs: Dashboard, Bots, Path rules, Builder, Statistics, Settings (unter AdminParentConfigure)
Konfigurationsschlüssel: DFAICM_AUTO_REGEN, DFAICM_VISIT_LOG, DFAICM_HTTP_BLOCK, DFAICM_LOG_PARSING, DFAICM_LOG_PATH, DFAICM_LOG_FORMAT, DFAICM_LAST_PARSE, DFAICM_LAST_OFFSET, DFAICM_RETENTION, DFAICM_CRAWL_DELAY, DFAICM_SITEMAP_URL, DFAICM_GLOBAL_DISALLOW, DFAICM_INSTALLED_AT

Support

Für technische Fragen kontaktieren Sie das DataFirefly-Team unter contact@datafirefly.com oder besuchen Sie Ihren Kundenbereich auf datafirefly.com.

War diese Seite hilfreich?

Immer noch nicht weiter? Support kontaktieren