Wissen > 5. Data Mining & Data Warehousing

5. Data Mining & Data Warehousing


"We are drowning in information,
but starving for knowledge!"

(John Naisbett)

Einleitung

Data Mining und Data Warehousing beschäftigen sich mit der Wissensextraktion aus Datenbanken.

Mit Hilfe von Algorithmen, deren Ursprünge vorrangig in den Disziplinen der Statistik, Artificial Intelligence und Machine Learning liegen, werden beim Data Mining aus großen Datenbeständen vlautomatisch oder automationsunterstützt neue Inhalte "gewonnen", Muster und Trends erkannt, sowie Prognosen für die Zukunft erstellt.

Im Gegensatz zum auf die Methoden zur Mustererkennung und Regelextraktion spezialisierten Data Mining zielt der Begriff des Data Warehousing mehr auf die (auch: betriebliche) Infrastruktur zum Datenmanagement ab. Ein Data Warehouse im engeren Sinne ist ein zentraler Datenbehälter ("Repository" [6] ), der Daten aus unterschiedlichen, meist heterogenen Quellen und mehrere Sichten auf den Original-Datenbestand enthält. "Data Warehousing" ist im übrigen ein eher im (betriebs-)wirtschaftlichen Kontext gebräuchlicher Begriff, namentlich auch im näheren Umfeld von decision support (siehe auch Abschnitt "Zitate zum Begriff Data Warehousing"; [5] )

Wissenschaftliches Umfeld, historische Entwicklung

Die ältesten Wurzeln des Data Mining liegnin der klassischen Statistik , erste richtungsweisende Aktivitäten findet man in den 60er und 70er Jahren. Wesentlich für die Abgrenzung des "modernen" Data Mining von der ursprünglichen Statistik ist die Tatsache, dass im Gegensatz zum klassischen Hypothesentest, bei dem man eine Annahme mit den Daten konfrontiert und anschließend aufgrund exakt definierter mathematischer Überlegungen annimmt oder verwirft, nunmehr versucht, die Hypothesen quasi erst im Nachhinein zB in Form von Regeln aus den analysierten Daten abzuleiten.

Die Artificial Intelligence (AI) versucht, basierend auf Heuristiken, dem menschlichen Denken ähnliche Prozesse auf statistische Probleme anzuwenden. Da dieser Ansatz aber hohe Ansprüche an die Rechenleistung der eingesetzten Computersysteme stellt, ist er bis in die 80er Jahre nicht praktikabel.

Das Machine Learning kommt erst in den 80er und 90er Jahren auf und profitiert im Gegensatz zur wirtschaftlich wnier erfolgreichen AI früherer Prägung vom stetig steigenden Preis-/Leistungsverhältnis der zu diesem Zeitpunkt erhältlichen Rechenanlagen. Die Disziplin, die kurz als Zusammenfassung von Statistik und AI beschrieben werden kann, versieht AI-Heuristiken mit fortschrittlichen statistischen Analysemethoden und versucht, Computerprogramme anhand der von ihnen studierten Daten lernen zu lassen. [7]

Data Mining: Wissenschaftliches Umfeld
Data Mining: Wissenschaftliches Umfeld

Motivation, Entstehungskontext, Spannungsfelder

Praktisch alle größeren Unternehmen und anderen Organistationen sammeln (im Zuge des verstärkten Computereinsatzes, automatisch oder automationsunterstützt; Tools für das automatisierte Anhäufen von Daten sind mannigfaltig verfügbar) groß Daenmengen mit einem oft hohen Maß an Heterogenität an; unterschiedliche Datenbestände in den einzelnen Abteilungen und Unterorganisationen reflektieren deren jeweilige Teilaktivität. Das in diesen Daten enhaltene bzw verborgene Wissen ist nicht offensichtlich: Niemand hat den Überblick über alle Datenbestände, und die personellen Zuständigkeiten wechseln - Daten werden dadurch falsch interpretiert oder "uninterpretierbar". Anders ausgedrückt: "We are drowning in information, but starving for knwledge" (John Naisbett; freie Übersetzung: "Wir ertrinken in Informationen, aber uns dürstet nach Wissen!"). [6]

Vor dem Hintergrund dieser "Missstände", dem allgemeinen Wettbewerbsdruck, der immer billigeren und leistungsfähigeren Computer und der weit entwickelten theoretischen und mathematischen Grundlagen (Machine Learning, Statistik, Datenbansystme) erscheint die EDV-gestützte Datenanlyse mit Data-Mining-Algorithmen heutzutage als das Mittel der Wahl zum verbesserten Datenmanagement. [6]

Auch die Bezeichnung "Data Mining" spiegelt im übrigen recht treffend das Bedürfnis wieder, die in der Datenmine verschütteten bzw. begrabenen (man spricht auch vom "Datenfriedhof"), unter der Oberfläche jedoch vorhandenen Informationen aus den Untiefen übergroßer Datenbanken ans Tageslicht zu befördern.

Begriffsdefinitionen

Wie scheinbar alle Begriffe im Bereich Wissensakquisition und Knowledge Management, sind auch "Data Mining" und "Data Warehousing" zwei mit zahlreichen Mehrdeutigkeiten und inhaltlichen Überschneidungen (auch mit anderen Wissensgebieten) behaftete Begriffe. Die Ausdrücke wurden erst in der jüngeren Zeit geprägt (ca. ab 1990, Publikationen zum Thema häufensich rst in der zweiten Hälfte der Neunziger Jahre).

Knowledge Discovery in Databases

Als etwas abstrakteren Überbegriff, der unter anderem Data Mining und Data Warehousing umfasst, findet man Knowledge Discovery in Databases (KDD) . Der KDD-Prozess umfasst zusätzlich zu Data Mining und Data Warehousing die Schritte Datenpräparation, Datenauswahl, Datensäuberung, Aufnahme von geeignetem Vorwissen sowie die Ergebnisinterpretation des Data Minings. [5]

Zitate zum Begriff "Data Mining"

Zitate zum Begriff "Data Warehousing"

Data-Mining-Techniken

Jede Technik ist meistens für ein spezifisches Problem besonders geeignet. Es gibt eine Unmenge an Techniken von denen die wichtigsten hier aufgezählt sind.

Warenkorbanalyse

Gehört zu den Clusteranalsen. Be der Warenkorbanalyse werden Gruppen von häufig gemeinsam verkauften Produkten aufgefunden. Damit kann das Kaufverhalten analysiert werden. Die daraus resultierenden Ergebnisse werden verwendet, um

Fallbasiertes Schließen

Verfahren, bei dem Entscheidungen aus den Erfahrungen der Vergangenheit abgeleitet werden. Dazu werden alle Eigenschaften von einzelnen Fällen in einer Datenbank gespeichert, zum Beispiel alle relevanten Parameter zur Entscheidungsfindung sowie der Ausgang des Geschäftsfalls. Um ähnliche Fälle zu finden werden vorhandene Parameter mit den Parametern der Datenbank verglichen. Wichtig ist dabei, die Parameter aller relevanten Unternehmensentscheidungen zu protokollieren, um immer genuere undbessere Vorhersagen treffen zu können.

Neuronale Netze

Bestehen aus vielen einfachen Einheiten, den Neuronen. Diese tauschen Informationen per Stimulationen über gerichtete Verbindungen aus. Um so ein Netz sinnvoll verwenden zu können, muss es anhand von Beispielen trainiert werden. Dabei unterscheidet man zwei Arten des Lernens:

Genetische Algorithmen

Das Prinzip esteht dain, die Natur nachzubilden. Jede Lebensform entwickelt sich von Generation zu Generation weiter und wird dadurch „lebensfähiger“. Genetische Algorithmen machen nichts anderes.

Der Grundbaustein ist ein „Chromosom“, das durch ein Bitmuster dargestellt wird. Eine Menge von Chromosomen bildet eine Population. Zwei Chromosomen werden ausgewählt und gekreuzt, wodurch sich die Population ändert. Anschließend wird jedes einzelne Chromosom einer Fitnessfunktion unterzogen. Es bleiben nur noch die stärksten Chromosomen übrig, die sich dem Problem optimal angenähert haben.

Diese Methode wird bei Optimierungsaufgaben häufig eingesetzt.

Automatische Clusteranalyse

Dient dazu, Gruppen von Datensätzen zu finden, die Ähnlichkeiten aufweisen. Ausgegangen wird von den vorliegenden Rohdaten, in denen Zusammenhänge gesucht werden. So werden Daten mit ähnlichen Eigenschaften gesichtet. Diese Datnbestände werden mit anderen Techniken weiteruntersucht. Beispiel: Kunden einer Bank werden nach ihrem Kreditrisiko eingestuft

Analyse von Beziehungen zwischen den Datensätzen

Es werden Beziehungen zwischen den Datensätzen hergestellt, um zum Beispiel Marketingaktionen auf einzelne Kunden besser abstimmen zu können.

Data Mining in der Praxis

Allgemeines

Data Mining entwickelt sich im wesentlichen in zwei Gebieten: Einerseits in der Forschung, hier liegt das Hauptziel darin, neue und effizientere Algorithmen zur Informationsgewinnung aus beliebigen Daten zu finden, und andererseits in der Praxis, in der Data Mining hauptsächlich dazu eingesetzt wird, um Wettbewerbsvorteile gegenüber der Konkurrenz zu erreichen.

In folgenden Branchen können unter anderen Datenanalysemethoden wie Data Mining für Marketingzwecke genutzt werden:
Vor allem in diesen Branchen verfügen die einzelnen Unternehmen über große Datenmengen über ihre Kunden. Aufgabenstellungen sind dabei zum Beispiel das Erkennen von Kundengruppen, Kreditwürdigkeitsanalyse, Warenkorbanalyse usw. Dabei kommen die verschiedensten Techniken zum Einsatz.

Probleme

Die Probleme des Data Mining in der praktischen Anwendung liegen weniger an der mangelnden Güte der einzelnen Techniken als in der Datengrundlage, den verwendeten Tools und der Einbettung in die Geschäftsprozesse. Diese drei Problemfelder seien hier kurz näher beschrieben:

Ausblick, zukünftige Entwicklung

Trends [ 11 ]

"Hype" oder echte Neuheit?

Data Mining erscheint nicht als echte Neuheit, sondern vielmehr als logische Konsequenz der Entwicklungen der letzten Jahrzehnte im Hardwarebereich. Es stellt hauptsächlich eine Neukombination von Techniken aus Mathematik und Informatik dar, die schon seit den Sechzigern Bestand haben
h3>Schlussfolgerungen Derzeit gibt es keine Anhaltspunkte dafür, dass der Trend zum Data Mining nicht anhalten sollte. Gerade mit der ungebrochenen Expansion des World Wide Web ergeben sich (unter anderem im Bereich des Text Mining bzw. Web Mining) immer neue Anwendungsmöglichkeiten - die Warenkorbanalyse ist und bleibt beispielsweise von Interesse für jeden, der einen Online-Shop auf die Beine stellen möchte. Auch die Anzahl der wissenschaftlichen Publikationen zum Thema nimmt seit ca. 1990 zu.

Hype-Kurve
Hype-Kurve


Quellennachweis

  1. http://www.the-data-mine.com/
  2. http://www3.shore.net/~kht/
  3. http://www.twocrows.com/glosar.htm
  4. Frawley, Piatetsky-Shapiro: "Knowledge Discovery in Databases: An Overview"
  5. "IEEE TRANSACTIONS ON NEURAL NETWORKS", VOL. 13, NO. 1, JANUARY 2002;
    im Volltext als PDF unter http://www.ieee.org/ - kostenfrei abrufbar im TUNET, zB über die Homepage der TU-Bibliothek (http://www.ub.tuwien.ac.at/ ) unter "Elektronische Zeitschriften"
  6. Vorlesung "Data Warehousing und Mining" - Klemens Böhm
  7. "A Brief History of Data Mining"
    http://www.data-mining-software.com/
  8. "Data Mining: What is Data Mining?"
    http://www.anderson.ucla.edu/
     
  9. Data Mining: Research Trends, Challenges, and Applications - Deogun, Raghavan, Sarkar.. (1997)
    http://ata.cs.hun.edu.tr/~sever/DRSS96.pdf
  10. KDnt Knowledge Discovery & Data Minin
    http://www.kdnet.org/
  11. numberland.com: "Datamining - Hintergrund"
    http://www.numberland.com/datamining/basis.htm

Verweise zu anderen Gruppen

  1. http://cartoon.iguw.tuwien.ac.at:16080/fit/fit07/entstehung.html
    Entstehungskontext von Data Mining und Data Warehousing
  2. http://cartoon.guw.tuwien.ac.at:16080/fit/fit07/praxis_DM.html
    Anwendungsbeispiele zum Data Mining
  3. http://cartoon.iguw.tuwien.ac.at:16080/fit/fit05/gruppe1/praxis.html
    Über die Probleme der AI und den kritischen Kostenfaktor, der unter anderem auch den Boom der Data-Mining-Anwendung lange Zeit hemmte.
  4. http://cartoon.iguw.tuwien.ac.at:16080/fit/fit07/praxis_DW.html
    Ausführliche Schilderung einer Data Warehouse Lösung
  5. http://cartoon.iguw.tuwien.ac.at:16080/fit/fit05/gruppe1/entstehung.html
    Kuenstliche Intelligenz, eine der Wurzeln des Data Mining, im Detail.