Wissen > 4. Information Retrieval & Visualisierung > Konzepte und Techniken Information Retrieval

4. Information Retrieval & Visualisierung

Information Retrieval mittels Marginal Hole Punched Cards
Abb.1: Information Retrieval mittels Marginal Hole Punched Cards und Sorting Needle

Konzepte und Techniken

Stellvertretend für die vielen im Laufe der Geschichte des Information Retrieval angewandten Konzepte sei hier näher auf eine in den 60er-Jahren benutzte Technik eingegangen, die sich durch die manuelle Benutzung von Lochkarten auszeichnet.

Marginal Hole Punched Cards und Sorting Needle [1]

Eine Marginal Hole Punched Card ist eine Lochkarte mit einer Reihe vorgestanzter Löcher knapp unterhalb der oberen Kante. Jedes Loch entspricht einen bestimmten Suchbegriff. Unterhalb der Löcher befindet sich hinreichend Platz für textuelle Informationen (vgl. die üblichen Zettelkataloge).

Die Information, welche Suchbegriffe zu einer Karte gehören, wird durch Stanzungen kodiert, die zwischen Oberkante und Loch so erfolgen, dass das entsprechende Loch nach oben hin offen ist.

Der Prozess besteht des Information Retrieval besteht dann darin, die Sorting Needle (ein langer biegsamer Metallstift) in das dem gewünschten Suchbegriff entsprechende Loch des Kartenstapels einzuführen und danach anzuheben (vgl. Abb. 1). Alle am gewählten Loch nicht gestanzten Karten werden hierdurch entfernt und es verbleiben die Karten die den Suchbegriff enthalten. Logische Verknüpfungen von mehreren Suchbegriffen können durch wiederholte Anwendung der Sorting Needle vorgenommen werden.

Aktuelle Techniken

Heutzutage erfolgt Information Retrieval fast ausschließlich elektronisch unterstützt. Ein großes Anwendungsgebiet sind Web-Suchmaschinen. Eines der zugrundeliegenden technischen Konzepte ist das des Reversed File: Zu jedem möglichen Suchbegriff existiert eine Liste der Dokumente, die diesen Begriff enthalten. Sobald die Anzahl der Suchbegriffe kleiner ist als die Anzahl der Dokumente (was bei Web-Suchmaschinen den Normalfall darstellt), ist diese Form der Speicherung effizienter und führt zu schnelleren Abfragen.

Geforscht wird weiterhin im Bereich der Abfragesprachen. Versuche mit natürlicher Sprache als Abfragesprache stecken allerdings noch etwas in den Kinderschuhen (vgl. Microsoft Office Assistant: „Geben Sie Ihre Frage ein“ oder auch die Apple-System-Hilfe). Eng damit zusammenhängend auch die Forschung im Bereich autmatische Textanalyse und -klassifizierung [2], um auch kontextuelle und inhaltliche Aspekte bei der Suche berücksichtigen zu können.

Einen wichtigen Aspekt stellt auch die Relevanz der Suchergebnisse sowie die Algorithmen zur Ermittlung derselben dar. Die Web-Suchmaschine Google benutzt einen Algorithmus namens Page Rank [3], bei dem die Anzahl der auf eine Webpage verweisenden Links in den Relevanzwert eingeht, mithin eine Webbasierte-Variante des klassischen Zitatindex der wissenschaftlichen Community.

Quellennachweis

  1. Allen Kent: Information Analysis and Retrieval. Second Edition. Becker and Heyes 1962, S. 43ff.
  2. http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html
  3. http://www.google.at/intl/de/why_use.html