
Eine Suchmaschine durchsucht während einer Suchanfrage nicht das gesamte Internet, stattdessen wird ein Index erstellt, der Informationen zu den einzelnen Seiten speichert. Während einer Suchanfrage (Query Processing) werden die Informationen mit dem Index verglichen und innerhalb kürzester Zeit, die entsprechenden Ergebnisse in den Trefferlisten angezeigt. Dieser Vorgang wird auch als Matching bezeichnet. [1]
Damit die Daten dem Index zur Verfügung stehen, müssen sie zuvor beschafft und in das richtige Format gebracht werden. Dazu durchlaufen die Suchmaschinen folgende Prozesse.
Der Crawler
Der Crawler, der auch Spider, Robot oder Bot genannt wird, ist ein Computerprogramm welches Dokumente im Web durchsucht und sammelt. Dafür ruft er eine Seite nach der anderen auf und speichert sie ab. Alle Links der Webseiten werden nachverfolgt und anschließend werden die Inhalte gescannt. Dabei gleicht der Crawler die gefundenen Daten mit der Datenbank der Suchmaschine ab. Wenn ein Crawler einen neuen Link findet, wird dieser inklusive der Inhalte ebenfalls in die Datenbank der Suchmaschine aufgenommen. Durch den kontinuierlichen Abgleich der eigenen Datenbanken mit dem Internet kann die Aktualität sichergestellt werden. Neben den HTML-Inhalten können auch PDF-, Microsoft Word-, Excel- und Powerpoint-Dokumente erfasst werden. Die gesammelten Daten werden anschließend dem Indexierer übermittelt. [2]
Der Indexierer
Der Indexierer ist ein Computerprogramm, das die gesammelten Daten aufbereitet, die ihm vom Crawler übergeben wurden. Die Daten werden in ein einheitliches Format gebracht und anschließend analysiert. Hierfür werden Information-Retrival-Systeme[3] (IR-Systeme) angewendet. Sie wandeln die vorliegenden Dokumente in ein vereinfachtes Format um. So können die Dokumente für die spätere Verwendung verarbeitet werden. Sie bilden damit die Grundlage für das weitere Vorgehen. [4]
Anhand bestimmter Gewichtungsmodelle können IR-Systeme für jedes Dokument einen bestimmten Relevanzwert festlegen. Dieser sagt aus, wie wichtig ein Schlagwort[5] innerhalb eines Dokuments ist. Somit kann für jedes Schlagwort auch eine eigene Relevanz errechnet werden. Danach werden bestimmte Merkmale des Dokuments festgehalten und gespeichert, wie zum Beispiel die relative Worthäufigkeit, sowie Position der Keywords und sonstige Hervorhebungen im Text. [.1]
Im Anschluss werden die gesammelten Schlagwörter zu einer großen Liste zusammengefasst. Die Schlagwörter wiederum verweisen auf die entsprechenden Dokumente, in denen diese vorkommen. Dieser Vorgang ist auch unter dem Begriff invertierter Index bekannt[6]. Der Eintrag im invertierten Index wird als Indexierung bezeichnet.
Des Weiteren wird die Größe des indizierten Inhalts beschränkt. Google beispielsweise untersucht nur die ersten 101 Kilobyte.[7]
Der Searcher
Der Searcher ist für den Benutzer die einzig sichtbare Funktion einer Suchmaschine. Die Möglichkeit eine Suchanfrage zu stellen, wird durch den sogenannten „Query“ ermöglicht. Nachdem der Suchbegriff in der Eingabemaske, auch Webinterface genannt, abgeschickt wurde, kann innerhalb kürzester Zeit eine sortierte Trefferliste übermittelt werden. Diese Trefferliste oder Search Engine Results Page (SERP) zeigt den Seitentitel an, die URL und den Bereich, in dem der Suchbegriff vorkommt.
[1] Erlhofer, 2008, S.153
[2] Vgl. Erlhofer, 2008, S.76 f.
[3] Information-Retrival-Systeme dt. Informationswiedergewinnung Umfassen Verfahren und Methoden mit dem Ziel Daten aufzubereiten und in einer geordneten Struktur wieder auffindbar zu machen. Vgl. Erlhofer, 2008 S. 474
[5] Auch Suchbegriff, Deskriptoren oder Keyword genannt
[6] Oberschelp / Vossen S. 525 f.
[7] Google Guide, Zugriff 13.01.11