fit 2002 >
DataMining > Konzepte und
Techniken |
Überblick |
Konzepte und TechnikenVoraussetzungenEine notwendige Bedingung für den erfolgreichen Einsatz von Data Mining Werkzeugen ist die Bereistellung einer "konsistenten, qualifitativ hochwertigen Datenbasis, die am sinnvollsten durch ein Data Warehouse zur Verfügung gestellt wird". AblaufAnsprüche an die DatenDie grundlegenden Eingabedaten stammen meist aus einer Datenbank. Neben
technischen Problemen, die durch die Art des Speicherung der Daten enstehen
können (Relationale Datenbanken...), treten vor allem Schwierigkeiten im
Zusammenhang mit der Unvollkommenheit der Daten zu Tage.
Der eigentliche Ablauf
Definition des DatenpoolsDer größte Anteil am Gesamtaufwand eines Mining-Projekts entsteht bei der Zusammenstellung und der Aufbereitung der Daten. Die Datenextraktion aus verschiedenen Tabellen, Bereinigungen und Kategorisierungen ist nicht nur zeitintensiv, sie erfordert neben technischen Fertigkeiten vor allem fachliches Know-how. Fehler an dieser Stelle verzögern Projekte deutlich und schon der Einbezug oder die Ausgrenzung weniger Datenattribute kann über Erfolg und Misserfolg entscheiden. Erfahrung zahlt sich gerade in dieser Projektphase aus. Bei einem sehr großen Datenbestand reicht es schon oft aus, Data Mining mit einer Stichprobe vorzunehmen. Mining Lauf und VisualisierungDie Laufzeit einer Berechnung im Mining-Lauf bewegt sich in
einem Zeitrahmen von wenigen Sekunden bis hin zu vielen Stunden. Interpretation durch den AnwenderLetztlich obliegt es dem fachlichen Anwender, nichttriviale Zusammenhänge als solche zu erkennen, um dann die wirklich wertvollen Teilergebnisse näher zu untersuchen. Hierzu kann er zum Beispiel einen erneuten Durchgang starten um die Ergebnisse zu verfeinern Methoden und TechnikenKlassifikationHauptaufgabe der Klassifikation ist eine Zuordnung betrachteter Objekte zu
bestimmten Klassen. Die Zuordnung findet auf Grund von Entscheidungsregeln an,
die auf die auf gewisse Objektmerkmale angewandt werden. Bekannteste Methode dieses Verfahrens ist die Entscheidungsbaummethode, weitere Methoden das Fallbasierte Schließen oder Neuronale Netze. Entscheidungsbaummethode (Decission Tree) Die Struktur eines Entscheidungsbaumes wird in der nachfolgenden Abbildung veranschaulicht. Dabei sei angenommen, dass die Daten sinnvollerweise verschiedene Werte im Zielattribut besitzen, d.h. nicht nur ein einzelner Wert (z.B. Kunde=Ja) auftritt. Durch diese Abfragetechnik kann automatisierte Entscheidung für ähnliche
Situationen in der Zukunft gemacht werden.
Fallbasiertes Schließen Um einen neues Problem zu lösen, wird in der Falldatenbasis (Erinnerung)
nach früheren Fällen gesucht, bei denen ähnliche Probleme zu behandeln waren.
Deren Lösung wird auf das aktuelle Problem übertragen. Neuronale Netze Mit neuronalen Netzen versucht man die Vorgänge im menschlichen Gehirn nachzubilden. Das Wissen zur Lösung einer Aufgabe wird in den Neuronen (den Knoten) eines Netzes abgelegt, zwischen denen dann Verbindungen hergestellt werden. Die Knoten entsprechen dabei einem Neuron des menschlichen Gehirns, die Kanten stellen Verbindungen zwischen Neuronen im menschlichen Gehirn dar. Es ist dem Entscheidungsbaumverfahren sehr ähnlich allerdings erweitert es seine Parameter selbstständig, um genauere Schlüsse zu ziehen. Um ein neuronales Netzwerk sinnvoll verwenden zu können, muss zuerst die Aufgabenstellung anhand von Beispielen trainiert werden. Das Lernen des nötigen Basiswissens wird durch die Angabe von Eingangsmengen und den zu berechnenden Ausgangsmengen erreicht. (zum Beispiel durch Erlernen von bereits verifizierten Beispielen aus der Vergangenheit). SegmentationUnter Segmentierung versteht man die Zerlegung (Partitionierung) einer Datenbasis in einzelne Segmente, die aus jeweils zueinander ähnlichen Datensätzen bestehen. Im Prinzip bedeutet das nichts anderes, als daß diese Datensätze Attribute enthalten, deren jeweilige Ausprägungen zu einem gewissen Grad ähnlich sind, womit Objekte in Gruppen zusammengefasst werden, die vorher nicht bekannt waren. Sichtbar können solche Zusammenhänge mit Semantischen Netzen gemacht werden, die Suche nach den Zusammenhängen werden mit der Clusteranalyse durchgeführt Clusteranalyse Ziel ist es, Strukturen in Daten zu erkennen, also transparente und wissensbasierte Repräsentationen der in Datensätzen inhärent enthaltenen Information zu lernen. Dabei wird von den Rohdaten aus nach noch nicht bekannten Zusammenhängen gesucht. Dies geschieht meist als erster Schritt in sehr großen Datenbeständen, um erste Daten mit ähnlichen Eigenschaften zu sichten, die darauf mittels anderer Techniken weiter untersucht werden. PrognoseDient zur Vorhersage von unbekannten Merkmalswerten auf der Basis anderer Werte zumeist aus früheren Perioden. Ziel ist es, eine Vorhersage für die Zukunft zu treffen. Die Techniken sind zumeist statistischer Natur. Zeitreihenanalysen zum Beispiel ermöglichen so eine Vorhersage auf der Grundlage interpretierbarer Muster aus der Vergangenheit. Auch zählen Entscheidungsbäume zu den Prognose Methoden des Data Mining. AbhängigskeitsanalyseBeziehungen zwischen verschiedenen Merkmalen eines Objektes. Diese Beziehungen können zu einem bestimmten Zeitpunkt erreignen, oder über eine Periode manifestieren. Die Warenkorbanalyse ist das bekanntestes Beispiel. Auch können Verfahren wie Informationsflußgraphen zu dieser Methode gezählt werden. Warenkorbanalyse Dabei werden Gruppen von häufig gemeinsam verkauften Produkten aufgefunden. Sie kommt fast ausschließlich im Einzelhandel zur Anwendung und stellt hier die beste Möglichkeit bereit, das Kaufverhalten zu analysieren. Die Ergebnisse können dazu dienen, die einzelnen Produkte gemäß ihrer Gruppenzugehörikeit in den Regalen aufzustellen. Ist es möglich, die Warenkorbanalyse mit Kundendaten zu verknüpfen, können Kaufwahrscheinlichkeiten für zukünftige Einkäufe errechnet werden. Außerdem kann man dadurch leicht kundenspezifische Werbung anbieten. Informationsflußgraphen Analyse von Beziehungen zwischen den Datensätzen Diese Methode versucht Beziehungen zwischen den einzelnen Datensätzen herzustellen, meistens um Marketingaktionen besser auf einzelne Kunden abstimmen zu können. AbweichungsanalyseWährend es bei obigen Aufgaben darum geht, Regelmäßigkeiten aufzufinden, dienen dient diese Methode der Findung von Objekten, die der Regelmäßigkeit der meisten anderen Objekte nicht folgt. Bei diesen ,,Ausreißern" kann es sich um fehlerfreie, interessante Merkmalsausprägungen handeln oder aber um fehlerhafte Daten, die keine realen Sachverhalte beschreiben. Die Zielsetzung der Abweichungsanalyse besteht darin, die Ursachen für die untypischen Merkmalsausprägungen des Ausreißers aufzudecken. Wird ein Ausreißer im Datenbestand identifiziert, so durchsucht das Data-Mining-Tool alle assoziierten Datenbestände, um die Einflußfaktoren zu erklären, die zu einer abweichenden Merkmalsausprägung geführt haben. Handelt es sich bei einem Ausreißer um einen fehlerhaften Wert, wird dieser aus dem Datenbestand eliminiert. Da auf diese Weise die Datenqualität gesteigert wird, werden Methoden zur Abweichungsanalyse oft in der Phase der Vorverarbeitung eingesetzt. Sonstige AlgorithmenZwei wichtige, nicht eindeutig in die obige Klassifizierung einzuordbare Algorithmen sind die genetischen Algorithmen und die Nearest Neighbor Methode. Genetische Algorithmen Dies sind Optimierungstechniken, die Prozesse benutzen, so wie genetische Kombination, Mutuation und natürliche Selektion in einem auf Evolution basierten Konzept. Nearest neighbor Methode Ein Klassifizierungsverfahren, bei dem für einen neuen Datensatz die Entfernung zu allen bekannten Datensätzen berechnet wird und der näheste - bzw. die k nähesten - bestimmt die Klasse. Dafür ist natürlich die Auswahl einer geeigneten Abstandfunktion wesentlich.
|
Weiterführende Informationen |
> Algorithmen in DM > DM in Machine Learning > DM Forum |
Verweise auf Arbeiten anderer Gruppen |
|
>Entstehungskontext | Konzepte und Techniken | Entwicklung und Auswirkungen | Praxis | Bewertung |