fit 2002

fit 2002 > Wissensaquisition > DataMining> Praxis

Praxis des Data Mining

Das Medium des WWW stellt eine sehr umfassende Informationsquelle dar, ständig wachsend werden auch die Datenaufkommen immer größer. Die Organisation und Strukturierung der angebotenen Information ist also eine Kernfrage des Wachstums des Internets. Suchmaschinen verwenden DataMining-Methoden, um die vorhande Information zu Strukturieren und zu durchsuchen. Nachdem es unendlich viele Möglichkeiten gibt, welche Information eine Internetseite beinhalten kann, muss nicht zuletzt eine Klassifikation vorgenommen werden, welche dynamischer Natur ist. Suchmaschinen müssen lernfähig sein, da es ständig neue „Klassen“ von Internetseiten im WWW gibt. Ein klassisches Zuweisungsproblem wo jedem von beliebig vielen Dokumenten eine aus beliebig vielen Klassen zugeordnet werden muss, im vorhandenen Suchkontext, auch „metric labeling problem“ genannt. Im Prinzip das gleiche DataMinging-Problem stellt sich auch in der Bildverarbeitung.
Der „E-Commerce“ Bereich stellt nahezu ein perfektes Einsatzgebiet für DataMining-Methoden dar: Große Datenmengen, viele Datensätze, Datensätze mit vielen Attributen („rich data“), und die Möglichkeit Aktionen durchzuführen und die Auswirkungen sofort studieren zu können, also alles was für erfolgreiches DataMining eine Vorraussetzung darstellt. Um diese Bedingungen jedoch zu erreichen, muss im Webseitendesign und dem dahinterliegendem Datenbankdesign vorsichtig unter DataMining-Gesichtspunkten vorgegangen werden. Die Erforschung von Datenschutzfragen in Bezug auf das Lesen von Daten zur Modellbildung stellt einen sehr neuen und ergiebigen Zweig der DataMining-Forschung dar. Der Kernbereich des DataMinings stellt den Prozeß dar, Struktur und Organisation einer Datenmenge zu erkennen. Um dieses Ziel zu erreichen muss die Datenmenge durchsucht und untersucht werden, wobei sich das Problem stellt, dass die Datenmenge persönliche Daten enthalten kann, die nicht gelesen werden dürfen. Die sich dabei stellende Hauptfrage ist, ob es eine Möglichkeit gibt DataMining durchzuführen ohne gegen den Datenschutz zu verstoßen.
Ein sehr klassischer und doch aktueller Einsatzbereich von Datamining liegt in der Speicherung und Kompression von XML Datensätzen. Die Speicherung von XML Datensätzen in relationalen Datenbanken hat den Vorteil zur Folge dass schnelle Datenbankumgebungen genutzt werden können um auf die Daten zuzugreifen. Wie auch immer stellt sich die Frage des optimalen relationalen Schemas. Genau hier kommt DataMining zum Einsatz, um ein sehr gutes, wenn auch nicht optimales Schema zu finden.
Die Forschungsabteilung von AT&T Labs kam bei einem Vergleich zwischen den beiden Kompressionsverfahren „gzip“ und „XMill“ mit XML Daten zu dem Ergebnis, dass „XMill“ eine doppelt so hohe Kompressionsrate wie „gzip“ in der gleichen Zeit erreichen konnte, wenn man es mit Eigenschaften über die zu komprimierenden Daten fütterte. Die automatische Erkennung und Bereitstellung dieser Daten über die Struktur ist ein klassisches DataMining-Problem.
Der moderne Begriff der „Bioinformatics“ bezeichnet eine junge Wissenschaft welche den Bezug von Informationssystemen zur Biologie untersucht. In erster Linie steht die Erforschung von DNA-Organisation und das theoretische Gleichsetzen von DNA-Sequenzen mit Datensätzen aus der klassischen Informatik. Die dabei erforschten Konzepte vervollständigen nach und nach das Bild der Genforschung über den menschlichen Körper und seine Entwicklung, und erste Ergebnisse schlagen sich vor allem in der Drogenforschung nieder. Die Integration von DataMining in unkonventionellen Umgebungen wie die eines biologischen Systems stellt einen Kernpunkt dieses Forschungszweigs dar.
In der Astronomie ist man dazu übergegangen digitale Landkarten von verschiedensten Himmelsrichtungen im ultravioletten bis infraroten Wellenlängenbereich anzufertigen. Die dabei auftretenden riesigen Datensätze liegen im Terrabytebereich, da von Millionen von Himmelskörpern verschiedenste Daten gespeichert werden müssen. Ziel ist es langfristig eine Zentrale astronomische Datenbank zu schaffen, auf die von Wissenschaftlern aus aller Welt zentral zugegriffen werden kann. Um die Suche in so großen Datenmengen überhaupt sinnvoll zu ermöglichen, werden eigene Querymechanismen und DataMining-Tools entwickelt.
>DIMACS Workshop on Data Mining in the Internet Age

Weiterführende Literatur

>Integration of Data Mining and Relational Databases, Surajit Chaudhuri
>Massive Data Sets in Astronomy, MICHAEL S. VOGELEY
>What have I learned at SurroMed?, Shalom Tsur
>Using Data Mining for XML Data Storage and Compression, Dan Suciu (AT&T Labs -- Research)