Datenschutzbehörde  Datenschutz Europa privacy service
 
Einfache Schritte eines Webseitenbetreibers um Webcrawlern (wie dem von Google) zu entgehen
Dieser Artikel beschreibt Schritte für einen Webseitenbetreiber um von diversen Suchmaschinen nicht indiziert d.h. nicht gefunden zu werden. Der einfachste Weg liegt in der Erstellung der robots.txt Datei, die Anweisungen für Webcrawler enthält den Inhalt einer Webseite zu ingorieren.

Möchte ein Webseitenbetreiber grundsätzlich nicht von bekannten Suchmaschinen zB: Google, Bing, Yahoo... gefunden werden reicht es eine Datei mit dem Namen robots.txt im Wurzelverzeichnis seines Webservers anzulegen, die folgendes beinhaltet:
User-agent: *
Disallow: /

Mit diesen 2 Anweisungen wird jedem Webcrawler (* steht für alle), der den Robots Exlusion Standard beachtet mitgeteilt den gesamten Inhalt der  akutellen Webseite zu ignorieren (Disallow: /).
Beim Robots Exlusion Standard handelt es sich mehr um eine Vereinbarung als einen verpflichtenden Standard der Suchmaschinenbetreiber, die den Inhalt der robots.txt Datei beachten.
Ein "böswilliger" Webcrawler, der zum Beispiel nach Sicherheitslücken in Webseiten sucht ignoriert natürlich diese Datei und ihre Direktiven vollständig.
Um Inhalte auf einem Webserver zu schützen müssen andere Methoden bzw. Zugriffskontrollmechanismen eingsetzt werden wie zum Beispiel HTTP - Authentifizierung des Webservers. Wie diese umgesetzt wird ist abhängig vom eingesetzten Webserver und kann beim Manual des jeweiligen Produkts nachgelesen werden.

In der Praxis werden die beschriebenen Direktiven zu restriktive sein, so möchte zum Beispiel eine Firma in der Regel durch Suchmaschinen gefunden werden und nur spezifische Inhalte ausschließen:
User-agent: *
Disallow: /cgi-bin/
Disallow: /typo3/
Disallow: /phpmyadmin/
Disallow: /member.html

Wieder sind alle Webcrawler von den Direktiven betroffen (*) und dürfen nicht die Verzeichnisse cgi-bin,typo3,phpmyadmin indizieren. Zusätzlich zu den Verzeichnissen darf auch die HTML Datei member.html nicht indiziert werden.
Es empfiehlt sich die Direktive User-agent immer für alle Webcrawler (*) zu definieren, da es eine Vielzahl von Webcrawlern gibt und jeder einzeln angeführt werden müsste.

Eine weitere Möglichkeit die Indexierung zu verhindern besteht in der Bearbeitung der Webseiten direkt, durch den Einsatz sog. Meta-Tags am Anfang der Seite
(innerhalb des <head></head> Teils des HTML Codes):
<meta name="robots" content="noindex,nofollow" />
Mit dieser Zeile wird verhindert, dass die aktuelle Webseite durch den Webcrawler der Suchmaschine indiziert wird, zusätzlich ignoriert der Crawler auch die jeweiligen Links innerhalb der Seite.





Die angezeigten Informationen und Artikel werden im Rahmen des ARGE DATEN Informationsdienstes kostenlos zur Verfügung gestellt. Alle Angaben sind sorgfältig recherchiert, es wird jedoch für die Richtigkeit keine Gewähr übernommen. Alle Angaben, Aussagen und Daten beziehen sich auf das Datum der Veröffentlichung des Artikels. Es wird ausdrücklich darauf hingewiesen, dass insbesondere Links, auf Websites gemachte Beobachtungen und zu einem Sachverhalt gemachte Aussagen zum Zeitpunkt der Anzeige eines Artikels nicht mehr stimmen müssen. Der Artikel wird ausschließlich aus historischem und/oder archivarischen Interesse angezeigt. Die Nutzung der Informationen ist nur zum persönlichen Gebrauch bestimmt. Dieser Informationsdienst kann professionelle fachliche Beratung nicht ersetzen. Diese wird von der ARGE DATEN im Rahmen ihres Beratungsservice angeboten. Verwendete Logos dienen ausschließlich zur Kennzeichnung der entsprechenden Einrichtung. Die verwendeten Bilder der Website stammen, soweit nicht anders vermerkt von der ARGE DATEN selbst, den in den Artikeln erwähnten Unternehmen, Pixabay, Shutterstock, Pixelio, Aboutpixel oder Flickr.

© ARGE DATEN 2000-2025 Information gemäß DSGVO webmaster