Sogenannte Webcrawler oder auch Spider & Searchbots genannt sind Computerprogramme die das WWW indizieren und analysieren. Nun gab es in der Vergangenheit einige Probleme mit dem sogenannten Googlebot, dieser scheint sich nicht an die “Regeln” der Webmaster zu halten die in einer robots.txt Datei festlegen können ob der Inhalt in einer Suchmaschine publiziert werden darf oder nicht. Eigentlich sollte man meinen, dass der Befehl:
User-agent: *
Disallow: /secret area
ausreichen sollte um davor bewahrt zur werden, dass dieser Bereich der Website gespidert wird, denn mit dem *, sollen alle Webcrawler angesprochen werden. Doch der Googlebot möchte scheinbar gerne persönlich angesprochen werden, also muss der Befehl lauten:
User-agent: Googlebot
Disallow: /secret area
Ausser den “offiziellen” Suchmaschinen-Spidern gibt es auch noch Spider die explizit nach E-Mail Adressen suchen um Spam-Mails zu verschicken ein Beispiel ist hier der EmailCollector.
Bisher konnte ich 4 Möglichkeiten ausmachen, Bots daran zu hindern die Website zu indizieren, zwei “offizielle” Wege über Verzeichnisse und zwei indem Fallen aufgestellt werden, zum einen die Spider-Trap und die Bot-Trap.
Spider-Trap:
Zuerst wird ein sichtbares oder unsichtbares Bild als Falle aufgestellt, dass Bild soll in ein von der robots.txt als verboten markiertes Verzeichnis verlinken. Hält sich ein Bot nicht an die robots.txt wird die IP-Adressen von diesem gespeichert und mit Direktzugriff auf die .htaccess Datei gesperrt werden. Zukünftig kann ein Bot mit dieser IP nichteinmal mehr auf das Blogscript zugreifen.
Bot-Trap:
Bei der Bot-Trap werden auch IP-Adressen oder gleich ganze IP-Adressbereiche gesammelt und ausgesperrt, allerdings werden diese nicht vom eigenen Blog gesammelt sondern zentral von einer ganzen Community.
Die robots.txt im Anhang dazu befindet sich ein Tutorial, wie sie zu bearbeiten ist und ein Generator.
Und über ein .htaccess Verzeichnis auch hier befindet sich im Anhang eine Anleitung.
Ich bitte um Rücksichtnahme, da dies mein erster Artikel ist. Dennoch würde ich mich über konstruktive Kritik freuen, denn so sagt man zumindest ist ja noch kein Meister vom Himmel gefallen.
Anhang:
Quellen Text:
http://www.seo-radio.de/index.php/archives/2005/11/14/google-und-die-robotstxt-experiment/
http://www.gibtnet.de/joomla/index.php?option=com_content&task=view&id=604&Itemid=46
Quelle Bild: