So verhindern Sie, dass die Crawler von OpenAI Ihre Website crawlen

Leser wie Sie unterstützen MUO. Wenn Sie über Links auf unserer Website einen Kauf tätigen, erhalten wir möglicherweise eine Affiliate-Provision. Mehr lesen.

Während Benutzer ChatGPT wegen der schieren Menge an Informationen, die es derzeit enthält, lieben, kann man das Gleiche nicht über Website-Besitzer sagen.

MUO-Video des Tages Scrollen Sie, um mit dem Inhalt fortzufahren

ChatGPT von OpenAI verwendet Crawler zum Scrapen von Websites. Wenn Sie jedoch Eigentümer einer Website sind und nicht möchten, dass der Crawler von OpenAI auf Ihre Website zugreift, können Sie dies mit den folgenden Maßnahmen verhindern.

Wie funktioniert OpenAI-Crawling?

A Webcrawler (auch bekannt als Spider oder Suchmaschinen-Bot) ist ein automatisiertes Programm, das das Internet nach Informationen durchsucht. Anschließend werden diese Informationen so zusammengestellt, dass Ihre Suchmaschine leicht darauf zugreifen kann.

Webcrawler indizieren jede Seite jeder relevanten URL und konzentrieren sich dabei in der Regel auf Websites, die für Ihre Suchanfragen relevanter sind. Nehmen wir beispielsweise an, Sie googlen nach einem bestimmten Windows-Fehler. Der Webcrawler in Ihrer Suchmaschine scannt alle URLs von Websites, die er in Bezug auf Windows-Fehler als aussagekräftiger erachtet.

Der Webcrawler von OpenAI heißt GPTBot und laut Dokumentation von OpenAI Wenn Sie GPTBot Zugriff auf Ihre Website gewähren, kann dies dazu beitragen, das KI-Modell so zu trainieren, dass es sicherer und genauer wird, und es kann sogar dazu beitragen, die Fähigkeiten des KI-Modells zu erweitern.

So verhindern Sie, dass OpenAI Ihre Website crawlt

Wie die meisten anderen Webcrawler kann der Zugriff auf Ihre Website durch GPTBot blockiert werden, indem die Website geändert wird robots.txt Protokoll (auch bekannt als Robots Exclusion Protocol). Diese TXT-Datei wird auf dem Server der Website gehostet und steuert, wie sich Webcrawler und andere automatisierte Programme auf Ihrer Website verhalten.

Hier ist eine kurze Liste dessen, was die robot.txt Datei kann Folgendes tun:

Es kann den Zugriff von GPTBot auf die Website vollständig blockieren.
Es kann den Zugriff von GPTBot nur auf bestimmte Seiten einer URL blockieren.
Es kann GPTBot mitteilen, welchen Links es folgen kann und welchen nicht.

So steuern Sie, was GPTBot auf Ihrer Website tun kann:

Blockieren Sie GPTBot vollständig den Zugriff auf Ihre Website

Richten Sie die robot.txt-Datei ein , und bearbeiten Sie es dann mit einem beliebigen Textbearbeitungstool.
Fügen Sie den GPTBot zu Ihrer Website hinzu robots.txt wie folgt:

 User-agent: GPTBot 
Disallow: /

Blockieren Sie nur den Zugriff auf bestimmte Seiten durch GPTBot

Richten Sie das ein robot.txt Datei und bearbeiten Sie sie dann mit Ihrem bevorzugten Textbearbeitungstool.
Fügen Sie den GPTBot zu Ihrer Website hinzu robots.txt wie folgt:

 User-agent: GPTBot 
Allow: /directory-1/ 
Disallow: /directory-2/

Beachten Sie jedoch, dass das Ändern der robot.txt Datei ist keine rückwirkende Lösung und alle Informationen, die GPTBot möglicherweise bereits von Ihrer Website gesammelt hat, können nicht wiederhergestellt werden.

OpenAI ermöglicht Website-Besitzern, sich vom Crawling abzumelden

Seit Crawler zum Trainieren von KI-Modellen eingesetzt werden, suchen Websitebesitzer nach Möglichkeiten, ihre Daten privat zu halten.

Stoppcode schlechte Systemkonfigurationsinfos

Einige befürchten, dass KI-Modelle im Grunde genommen ihre Arbeit stehlen, und führen sogar die geringere Anzahl an Website-Besuchen darauf zurück, dass Benutzer nun ihre Informationen erhalten, ohne jemals ihre Websites besuchen zu müssen.

Alles in allem liegt es ganz bei Ihnen, ob Sie KI-Chatbots vollständig daran hindern möchten, Ihre Websites zu scannen.