Archive for Februar, 2006

Jeder sucht bei Google, doch wie und wo suchen Google & Co?

Samstag, Februar 11th, 2006

Der Aufbau des Internets gleicht einem Spinnennetz. Webmaster verlinken untereinander mit Hyperlinks und bauen so das virtuelle Spinnennetz auf. Die Links, die dabei gesetzt werden sind oft weiterführenden Erklärungen, einfach nur eine Empfehlung oder ein Surftipp des Webmasters.

Durch diese fast ideale Vernetzung ist es für Suchmaschinenbetreiber recht einfach Inhalte für Ihre Suchmaschinen zu erhalten. Die Hauptarbeit leistet hierbei kein Mensch, sondern ein so genannter Robot (im Idealfall auch mehrere). Ein Robot oder auch kurz Bot ist ein auf dem Server laufendes Computerprogramm, das weitgehend selbstständig und unermüdlich seiner bestimmten Tätigkeit nachgeht. In dem Fall der Suchmaschinen haben diese Robots die einfache Aufgabe querbeet durch das Internet zu surfen, und auf Ihren Streifzügen möglichst jedem Link zu folgen, den Sie finden, um so neue URLs aufzuspüren.

Diese Art von Bot wird häufig Spider oder auch (Web)Crawler genannt: Spider auf Grund seines Verhaltens, sich auf den Spinnfäden des Netzes fortzubewegen – Crawler kommt aus dem Englischen (to crawl; engl. kriechen, krabbeln) und beschreibt hierbei die Art wie er dies einer Spinne gleich tut.

Der Bot wird auf einer Website im Internet „ausgesetzt“ und sucht sich, von Seite zu Seite kriechend, seinen Weg hindurch. Die bei seinem Ausflug gesichteten URLs werden systematisch gespeichert und dem Bot als möglichen neuen Startpunkt für seinen nächsten Ausflug vorgegeben. Dies dient mitunter auch dazu dem Bot eventuell schon bekannte URLs mitzuteilen und so einen unintelligenten und im Kreis „laufenden“ Bot zu vermeiden. Auf diese Weise ist es theoretisch möglich alle erreichbaren (verlinkten) Seiten des WWW zu finden.

Ein einfacher Bot kann genau die gleichen Inhalte wie ein Internetbrowser ohne Bildwiedergabe und ohne sonstige Plug-Ins (Flash oder ähnliches) „sehen“ und aufnehmen. Die gefundenen Inhalte werden, wie zuvor schon die URL, abgespeichert und sind für die weitere Verarbeitung vorgesehen.

Jeden Inhalt, der gefunden wird, nehmen sie auf. Denn dies ist Ihr Job. Um zu verhindern, das bestimmte Inhalte in diversen Suchmaschinen auftauchen gibt es unterschiedliche Möglichkeiten, wie z.B. das Anlegen einer Robots.txt-Datei (Sie regelt ob die Bots Inhalte aufnehmen und Links unter dieser Domain weiterverfolgen dürfen) oder die Robots-Anweisungen in den Metatags.

PS: Kleines Profil des Googlebots