fit 2002 > DataMining > Konzepte und Techniken

Überblick


Konzepte und Techniken

Voraussetzungen

Eine notwendige Bedingung für den erfolgreichen Einsatz von Data Mining Werkzeugen ist die Bereistellung einer "konsistenten, qualifitativ hochwertigen Datenbasis, die am sinnvollsten durch ein Data Warehouse zur Verfügung gestellt wird".

Ablauf

Ansprüche an die Daten

Die grundlegenden Eingabedaten stammen meist aus einer Datenbank. Neben technischen Problemen, die durch die Art des Speicherung der Daten enstehen können (Relationale Datenbanken...), treten vor allem Schwierigkeiten im Zusammenhang mit der Unvollkommenheit der Daten zu Tage.
Auf folgende Eigenarten von Daten in Realdatenbanken muss man beim Data Mining achten:

  • Unvollständigkeit und Spärlichkeit der Daten
    Realdatenbanken sind im Gegensatz zu Datensammlungen für Test- und experimentelle Zwecke in aller Regel nicht mit Blick auf das Data Mining konstruiert und gefüllt. Das Data Mining sieht sich daher mit dem Paradoxon konfrontiert, dass trotz riesiger Datenmengen wichtige Informationen fehlen oder zumindest unterrepräsentiert sind.
  • Dynamik der Daten
    Charakteristisch für die meisten Datenbestände ist, daß sie sich laufend ändern. In Data-Mining-Systemen, die online arbeiten, ist dafür zu sorgen, dass die Änderungen nicht zu falschen Ergebnissen führen.
  • fehlerhafte Daten
    In der betrieblichen Praxis sind häufig per Hand zusammengestellte Datensammlungen anzutreffen. Dies verschärft das ohnehin große Problem falscher oder fehlerhafter Daten, die zudem meist besonders auffällige Muster produzieren. Mit dem Problem, falsche Dateneingaben aufzufinden und zu korrigieren, beschäftigt sich eine eigene Kategorie von Data-Mining-Systemen. Daten zu reinigen ist jedoch nicht unproblematisch. Häufig erweisen sich scheinbare Anomalien oder Ausreißer als wesentliche Hinweise auf interessante Fakten oder Entwicklungen.
  • Redundanz
    Ein besonderes Problem stellen Redundanzen dar, die das System unnötigerweise als neues Wissen extrahiert. Diese doppelt oder mehrfach vorhandenen Daten prägen eventuell falsche Muster oder verstärken Trends, die nicht wirklich relevant sind.
    In diesem Zusammenhang sind auch mehrfache Eintragungen von Daten zu sehen, die sich zwar auf die gleiche Information beziehen können, aber trotzdem mehrfach Relevanz erlangen. (Das Maier - Meier Namens Problem).
  • Irrelevante Felder
    In Realdatenbeständen sind in aller Regel zahlreiche Felder für die Datenmustererkennung überflüssig, wobei oftmals nicht bekannt ist, auf welche Felder man ohne Informationsverlust verzichten kann.
  • Datenvolumen
    Das große Volumen realer Datenbestände verhindert es häufig, Algorithmen zu verwenden, die in kleineren Datensammlungen gute Ergebnisse liefern, aber in größeren zuviel Zeit benötigen oder nicht mehr berechenbar sind.

Der eigentliche Ablauf

Definition des Datenpools

Der größte Anteil am Gesamtaufwand eines Mining-Projekts entsteht bei der Zusammenstellung und der Aufbereitung der Daten. Die Datenextraktion aus verschiedenen Tabellen, Bereinigungen und Kategorisierungen ist nicht nur zeitintensiv, sie erfordert neben technischen Fertigkeiten vor allem fachliches Know-how.

Fehler an dieser Stelle verzögern Projekte deutlich und schon der Einbezug oder die Ausgrenzung weniger Datenattribute kann über Erfolg und Misserfolg entscheiden. Erfahrung zahlt sich gerade in dieser Projektphase aus. Bei einem sehr großen Datenbestand reicht es schon oft aus, Data Mining mit einer Stichprobe vorzunehmen.

Mining Lauf und Visualisierung

Die Laufzeit einer Berechnung im Mining-Lauf bewegt sich in einem Zeitrahmen von wenigen Sekunden bis hin zu vielen Stunden.
Die Form der Visualisierung ist meist softwareproduktabhängig und kann nur in engen Grenzen beeinflusst werden. Doch gerade die Visualisierung ist ein wesentliches Qualitätsmerkmal des Data Mining Werkzeugs. Als einzige Schnittstelle der Ergebnisausgabe fällt der Visualisierung nämlich die Aufgabe zu, die relativ komplexen Sachverhalte dem Anwender wirklich verständlich aufzubereiten. Eine gute Darstellung sollte die wesentlichen Zusammenhänge klar herausstellen und technischen Ballast vermeiden.

Interpretation durch den Anwender

Letztlich obliegt es dem fachlichen Anwender, nichttriviale Zusammenhänge als solche zu erkennen, um dann die wirklich wertvollen Teilergebnisse näher zu untersuchen. Hierzu kann er zum Beispiel einen erneuten Durchgang starten um die Ergebnisse zu verfeinern

Methoden und Techniken

Klassifikation

Hauptaufgabe der Klassifikation ist eine Zuordnung betrachteter Objekte zu bestimmten Klassen. Die Zuordnung findet auf Grund von Entscheidungsregeln an, die auf die auf gewisse Objektmerkmale angewandt werden.
Ein Kreditinstitut mit zehntausenden von Kreditnehmern ist daran interessiert, die Kreditwürdigkeit eines neuen Kunden ermitteln zu können. Anhand der Einstufungen der bisherigen Kunden und der mittels Data Mining ermittelten Aussagen könnten Entscheidungen über Ablehnung oder Annahme eines Kreditantrages getroffen werden.

Bekannteste Methode dieses Verfahrens ist die Entscheidungsbaummethode, weitere Methoden das Fallbasierte Schließen oder Neuronale Netze.

Entscheidungsbaummethode (Decission Tree)

Die Struktur eines Entscheidungsbaumes wird in der nachfolgenden Abbildung veranschaulicht. Dabei sei angenommen, dass die Daten sinnvollerweise verschiedene Werte im Zielattribut besitzen, d.h. nicht nur ein einzelner Wert (z.B. Kunde=Ja) auftritt.

Durch diese Abfragetechnik kann automatisierte Entscheidung für ähnliche Situationen in der Zukunft gemacht werden.
Die Erstellung des Baumes erfolgt anhand der existierenden vorhanden, historischen Daten. Aufgrund der meist schon vorhanden Einteilung der Daten in Klassen werden weitere Untergruppen gebildet. Nun wird versucht an jeder Verzweigung die bestmöglichste Frage zu stellen. Aus Gründen der Wirtschaftlichkeit und Effektivität wird der Baum nicht bis ins letzte Detail modelliert, sondern nur solange unterteilt und weitergeführt, bis eine der drei folgenden Bedingungen erfüllt ist:

  • Die Segmente enthalten nur einen Eintrag oder eine minimale algorithmisch definierte Anzahl von Einträgen.
  • Das Segment ist vollständig organisiert mit genau einem Prognose Vorhersagewert.
  • Die Verbesserung in der Struktur der Daten ist nicht ausreichend genug um eine neue Unterteilung zu rechtfertigen.

Fallbasiertes Schließen

Um einen neues Problem zu lösen, wird in der Falldatenbasis (Erinnerung) nach früheren Fällen gesucht, bei denen ähnliche Probleme zu behandeln waren. Deren Lösung wird auf das aktuelle Problem übertragen.
Das kann, muss aber nicht erfolgreich sein. Nach Abschluss der Problemlösung ist ein neuer Fall behandelt worden, der wiederum in die Falldatenbasis aufgenommen werden kann.
Damit sind fallbasierte Systeme lernfähig und sehr flexibel, im Gegensatz etwa zu regelbasierten Systemen.

Neuronale Netze

Mit neuronalen Netzen versucht man die Vorgänge im menschlichen Gehirn nachzubilden. Das Wissen zur Lösung einer Aufgabe wird in den Neuronen (den Knoten) eines Netzes abgelegt, zwischen denen dann Verbindungen hergestellt werden. Die Knoten entsprechen dabei einem Neuron des menschlichen Gehirns, die Kanten stellen Verbindungen zwischen Neuronen im menschlichen Gehirn dar. Es ist dem Entscheidungsbaumverfahren sehr ähnlich allerdings erweitert es seine Parameter selbstständig, um genauere Schlüsse zu ziehen.

Um ein neuronales Netzwerk sinnvoll verwenden zu können, muss zuerst die Aufgabenstellung anhand von Beispielen trainiert werden. Das Lernen des nötigen Basiswissens wird durch die Angabe von Eingangsmengen und den zu berechnenden Ausgangsmengen erreicht. (zum Beispiel durch Erlernen von bereits verifizierten Beispielen aus der Vergangenheit).

Segmentation

Unter Segmentierung versteht man die Zerlegung (Partitionierung) einer Datenbasis in einzelne Segmente, die aus jeweils zueinander ähnlichen Datensätzen bestehen. Im Prinzip bedeutet das nichts anderes, als daß diese Datensätze Attribute enthalten, deren jeweilige Ausprägungen zu einem gewissen Grad ähnlich sind, womit Objekte in Gruppen zusammengefasst werden, die vorher nicht bekannt waren.

Sichtbar können solche Zusammenhänge mit Semantischen Netzen gemacht werden, die Suche nach den Zusammenhängen werden mit der Clusteranalyse durchgeführt

Clusteranalyse

Ziel ist es, Strukturen in Daten zu erkennen, also transparente und wissensbasierte Repräsentationen der in Datensätzen inhärent enthaltenen Information zu lernen. Dabei wird von den Rohdaten aus nach noch nicht bekannten Zusammenhängen gesucht. Dies geschieht meist als erster Schritt in sehr großen Datenbeständen, um erste Daten mit ähnlichen Eigenschaften zu sichten, die darauf mittels anderer Techniken weiter untersucht werden.

Prognose

Dient zur Vorhersage von unbekannten Merkmalswerten auf der Basis anderer Werte zumeist aus früheren Perioden. Ziel ist es, eine Vorhersage für die Zukunft zu treffen. Die Techniken sind zumeist statistischer Natur. Zeitreihenanalysen zum Beispiel ermöglichen so eine Vorhersage auf der Grundlage interpretierbarer Muster aus der Vergangenheit. Auch zählen Entscheidungsbäume zu den Prognose Methoden des Data Mining.

Abhängigskeitsanalyse

Beziehungen zwischen verschiedenen Merkmalen eines Objektes. Diese Beziehungen können zu einem bestimmten Zeitpunkt erreignen, oder über eine Periode manifestieren. Die Warenkorbanalyse ist das bekanntestes Beispiel. Auch können Verfahren wie Informationsflußgraphen zu dieser Methode gezählt werden.

Warenkorbanalyse

Dabei werden Gruppen von häufig gemeinsam verkauften Produkten aufgefunden. Sie kommt fast ausschließlich im Einzelhandel zur Anwendung und stellt hier die beste Möglichkeit bereit, das Kaufverhalten zu analysieren. Die Ergebnisse können dazu dienen, die einzelnen Produkte gemäß ihrer Gruppenzugehörikeit in den Regalen aufzustellen. Ist es möglich, die Warenkorbanalyse mit Kundendaten zu verknüpfen, können Kaufwahrscheinlichkeiten für zukünftige Einkäufe errechnet werden. Außerdem kann man dadurch leicht kundenspezifische Werbung anbieten.

Informationsflußgraphen

Analyse von Beziehungen zwischen den Datensätzen Diese Methode versucht Beziehungen zwischen den einzelnen Datensätzen herzustellen, meistens um Marketingaktionen besser auf einzelne Kunden abstimmen zu können.

Abweichungsanalyse

Während es bei obigen Aufgaben darum geht, Regelmäßigkeiten aufzufinden, dienen dient diese Methode der Findung von Objekten, die der Regelmäßigkeit der meisten anderen Objekte nicht folgt. Bei diesen ,,Ausreißern" kann es sich um fehlerfreie, interessante Merkmalsausprägungen handeln oder aber um fehlerhafte Daten, die keine realen Sachverhalte beschreiben. Die Zielsetzung der Abweichungsanalyse besteht darin, die Ursachen für die untypischen Merkmalsausprägungen des Ausreißers aufzudecken. Wird ein Ausreißer im Datenbestand identifiziert, so durchsucht das Data-Mining-Tool alle assoziierten Datenbestände, um die Einflußfaktoren zu erklären, die zu einer abweichenden Merkmalsausprägung geführt haben. Handelt es sich bei einem Ausreißer um einen fehlerhaften Wert, wird dieser aus dem Datenbestand eliminiert. Da auf diese Weise die Datenqualität gesteigert wird, werden Methoden zur Abweichungsanalyse oft in der Phase der Vorverarbeitung eingesetzt.

Sonstige Algorithmen

Zwei wichtige, nicht eindeutig in die obige Klassifizierung einzuordbare Algorithmen sind die genetischen Algorithmen und die Nearest Neighbor Methode.

Genetische Algorithmen

Dies sind Optimierungstechniken, die Prozesse benutzen, so wie genetische Kombination, Mutuation und natürliche Selektion in einem auf Evolution basierten Konzept.

Nearest neighbor Methode

Ein Klassifizierungsverfahren, bei dem für einen neuen Datensatz die Entfernung zu allen bekannten Datensätzen berechnet wird und der näheste - bzw. die k nähesten - bestimmt die Klasse. Dafür ist natürlich die Auswahl einer geeigneten Abstandfunktion wesentlich.

  • benutzt die gesamte Datenbank als Modell
  • finde den naheliegensten Datenpunkt und mache das selbe wie für den vorigen
  • leicht zu Implementieren
  • Nachteil: riesige Modelle

 



Weiterführende Informationen


> Algorithmen in DM
> DM in Machine Learning
> DM Forum

Verweise auf Arbeiten anderer Gruppen



>Entstehungskontext | Konzepte und Techniken | Entwicklung und Auswirkungen | Praxis | Bewertung