Wissen
> 4. Information Retrieval & Visualisierung
> Geschichte des Information Retrieval
4. Information Retrieval & Visualisierung
Geschichte des Information Retrieval
Die Geschichte des Information Retrieval ist eine Geschichte voller Missverständnisse...
Der Mensch sammelt und speichert Daten seit über 4000 Jahren. Mit
zunehmender Menge wurden es dabei notwendig Methoden zu entwickeln, um
gespeicherte Informationen wiederzufinden. Es wurden verschiedene trickreiche
Techniken erfunden um Hinweise auf bestimmte Inhalte zu organisieren.
- Alphabetisierung
Eine in der heutigen Zeit selbstverständliche Art der Datenorganisation
ist die "Alphabetisierung", d.h. die Anordnung von z.B. Büchern
bzw. Schriftrollen in alphabetischer Reihenfolge nach den Titeln. Es wird
angenommen, dass diese Technik erstmals von Griechischen Gelehrten in
der Bibliothek von Alexandria angewandt wurde, um der Flut von Schriftrollen
griechischer Literaten Herr zu werden.
- Inhaltsverzeichnisse
Manche Autoren stellten ihren, oft aus dutzenden Büchern (Rollen)
bestehenden Werken, einen Buch (Rolle) voran, in dem sie genau beschreiben,
in welchem Band welche Information zu finden ist. Z.B. Plinius der Ältere
(ca. 40 n. Chr.) schrieb ein Werk "The Natural History in 37 Books".
Es ist eine Art Enzyklopädie, die eine Menge Informationen zu vielen
verschiedenen Themen beinhaltet. Das gesamte erste Buch dieses Werkes
ist ein gewaltiges Inhaltsverzeichnis, dass für die folgenden Bücher
auflistet, welche Themen besprochen werden, und welche Autoren mitgewirkt
haben. Plinius selbst gibt an, diese Technik von einem Kollegen (Valerius
Soranus, lebte um die Jahrhundertwende zwischen 200 und 100 v. Christus)
übernommen zu haben. Es gibt allerdings Hinweise die darauf hindeuten,
dass bereits Griechische Literaten ähnliche Inhaltsverzeichnisse
erstellt haben.
- Informationshierarchien
Kurz gesagt, ist damit die Unterteilung von Informationen in Bücher/Kapitel/Unterkapitel...
gemeint.
- Index
Das Wort Index taucht in der Geschichte des Information-Retrieval immer
wieder auf, jedoch ändert sich seine Bedeutung im Laufe der Jahrhunderte
erheblich.
So weit bekannt ist, geht das Wort "Index" zurück auf
die alten Römer, die es als Bezeichnung für kleine Papierstreifen
benutzten, die aus den aufgerollten Papyrusrollen herausragten und mit
dem Titel des enthaltenen Werkes beschriftet waren. Somit konnte die Rolle
und deren Inhalt identifiziert werden, ohne dass diese aus dem Regal gezogen
und ausgerollt werden musste. Daraus entwickelte sich dann langsam die
Verwendung des Wortes "Index" für "Titel". Anfang
des ersten Jahrhunderts nach Christus erweiterte sich die Bedeutung des
Wortes auf eine Art Inhaltsverzeichnis oder Liste von Kapiteln.
Indexe wie wir ihn heute kennen, als eine Auflistung von Begriffen und
ihren (mehr oder weniger) genauen Fundstellen im Text, traten nur vereinzelt
auf und verbreiteten sich erst nach der Erfindung des Buchdruckes. Grund
dafür war einerseits, dass Schriftrollen keine Seitennummern hatten
und anderseits, dass Bücher früher per Abschrift dupliziert
wurden, und somit kein Buch dem anderen glich, was einen Index der sich
auf Seiten- oder schlimmer noch Zeilennummern bezieht zu einer schwer
wartbaren Angelegenheit gemacht hätte.
Mit der Entwicklung der Computer entwickelten sich neue Methoden der Suche
nach Informationen. Dabei teilte sich die Forschung in zwei grundlegende
Richtungen:
- computer-centered-view: Erstellung von effizienten Indexen für
hochperfomante Abfragen und möglichst gute Ergebnisse z.B. mit Reihungs-Algorithmen
- user-centered-view: Untersuchung des Users, seiner Bedürfnisse
und seiner Vorlieben und deren Einfluss auf die Organisation der Daten
(z.B. ein Bibliothekar der den Index seiner Bibliothek erstellt muss genau
überlegen, wie er diesen organisiert, damit die Benutzer den meisten
Nutzen daraus ziehen)
Die ersten computer-basierten Lösungen waren Umsetzungen bewährter
Konzepte wie Karteikästen o.Ä. Später wurden die Techniken
verfeinert und die neuen Möglichkeiten des Computers wurden mehr
genutzt z.B. Suche in Titeln, Stichwortsuche, Volltextsuche, kombinierte
Suchanfragen, graphische Interfaces und elektronische Formulare zur Suchanfrage,
Abfragesprachen, "association search" d.h. der Computer variiert
automatisch die Suchbegriffe basierend auf vorangegangenen Suchen, "Query
by Example": Suchanfrage nicht per Suchbegriff sondern durch Angabe
eines Beispieles einer Fundstelle.
Heutige Forschungsgebiete beschäftigen sich unter anderem mit:
- "relevancy feedback": Verbesserung der Suchergebnisse durch
Feedback des Suchers, welche Fundstellen passend waren und welche nicht
und erneute Suche mit diesen Informationen.
- "natural language queries": Suche durch Angabe von, in natürlicher
Sprache gestellter Fragen
- "translingual queries": Suche in verschiedensprachigen Quellen,
die auf die Besonderheiten der jeweiligen Grammatik eingeht.
- "automatic classification" und "data recognition":
Automatische Einordnung von Quellen durch den Computer, d.h. der Inhalt
einer Quelle wird nicht mit Schlagwörtern festgemacht sondern als
solches für Suchen herangezogen (z.B. bei der Suche nach bestimmten
Bildern zieht der Computer die Bilddaten selbst zur Suche heran)
Quellennachweis
- American Society of Indexers
Verweise auf andere Gruppen
Assistenten - eine weitere Technik die für Information Retrieval genutzt werden kann
User Modeling - beschreibt unter Punkt "Konzepte" auch natürlichsprachige Komunikation zwischen Rechner und Mensch