fit 2002 > Wissensakquisition > Information Retrieval > Praxis

Praxis des Information Retrieval

 

Derzeit finden sich praktische Einsatzbereiche für Information Retrieval vor allem in der Textsuche von Dokumenten, IR im Audio und Grafikbereich befindet sich noch in einem frühen Forschungsstadium. 
Durch die steigende Popularität des Internets hat sich auch die Zahl der Studien über IR drastisch erhöht. Diese Entwicklung ergibt sich auch durch den vermehrten Einsatz von Search Engines. Suchmaschinen stellen die hauptsächliche praktische Nutzung der IR in der Gegenwart dar. Eine interessante Informationsquelle zu diesem Thema ist die Seite >[searchenginewatch.com]. Hier wird der Aufbau von Search Engines erklärt und die zugrundeliegenden Modelle erläutert. Weiters finden sich interessante Statistiken über das Verhalten von Search Engine Usern, über die Entwicklung, Verbreitung und Effizienz der Search Engines 

Betrachtet man zum Beispiel die Statistiken von typischen Benutzeranfragen, so ergibt sich, dass das Suchverhalten in der Realität sich von theoretischen Modellen und klassischen Testanfragen stark unterscheidet.

1. Die Anfragen sind kurz, die Durchschnittslänge der Anfragen beträgt in der Praxis nicht mehr als 4 Worte. Theoretische Modelle, die Anfragen als Beispieldokumente behandeln, sind daher nicht haltbar.

2. Benutzer öffnen nur eine kleinen Zahl der topgelisteten Dokumente. Daraus ergibt sich, dass die Qualität des Rankings im Vordergrund steht. In klassischen Suchmodellen wird ein Ranking überhaupt nicht berücksichtigt, neue Modelle müssen angewandt werden, die auf die Relevanz der gefundenen Informationen fokussiert sind. 

3. Benutzer sehen oft nur eine kleine Zahl der gefundenen Texte an und beginnen dann über Hyperlinks weiterzusurfen. Nur wenige Arbeiten haben sich bis jetzt mit verlinkten Dokument Kollektionen beschäftigt, Hyperlinks können die Suchqualität für den User aber signifikant verbessern. Ein gutes Beispiel dafür ist >[Google]

eine der populärsten modernen Internet Suchmaschinen, die als erste eine konkrete Analyse von Hyperlinks einführte.

4. Anfragen werden nur sehr selten neu formuliert und nützen Techniken wie "relevance feedback", die die Suchergebnisse verbessern sollen, nur selten. Das bedeutet, dass Systeme in der Praxis gut mit mangelhaften Informationen zurechtkommen müssen und auch in schwierigen Situationen perfekte Resultate liefern sollten.