Information Retrieval beschäftigt sich mit Repräsentation, Speicherung, Organisation und Zugriff von bzw. auf Information. Der Begriff Information bezeichnet hierbei alle Arten von Dokumenten (Text-, Bild-, Ton-, Filmdokumente etc.).
Allgemein ausgedrückt ist das Ziel von Information Retrieval, relevante Informationen zu einem Thema zu liefern.
Im Gegensatz zu Data Retrieval informiert Information Retrieval nicht direkt über den Inhalt von Dokumenten sondern über die (Nicht-)Existenz von zur Anfrage passenden Dokumenten (Beispiel Suchmaschinen im WWW: Das Auflisten von zu Suchbegriffen passenden Websites ist Information Retrieval; das Aufrufen von Seiten aus dem Suchergebnis ist Data Retrieval).
Data Retrieval | Information Retrieval | |
---|---|---|
Matching Algorithmus | exact match | partial/best match |
Abfragesprache | künstlich | möglichst "natürlich" |
Gewünschtes Suchergebnis | alle passenden Datensätze ("matching items") | alle relevaten Datensätze |
Während Data Retrieval künstliche Abfragesprachen wie SQL benutzt, wird im Bereich des Information Retrieval versucht, die Abfragesprachen so natürlich wie möglich zu gestalten. Eine in natürlicher Sprache gestellte Abfrage ist in den meisten Fällen inhärent unscharf und mehrdeutig, deswegen ist es wichtig, die Abfrageergebnisse hinsichtlich ihrer Relevanz für die Abfrage zu betrachten. Oft werden auch auf Relevanz-Feedback beruhende Techniken eingesetzt, um die Ergebnisse in einem iterativen Prozess genauer eingrenzen zu können (Beispiel: "Ähnliche Seiten anzeigen" bei Google).