fit 2002 > Wissensakquisition
> Konzepte und Techniken > Datamining |
Überblick |
Konzepte und TechnikenVoraussetzungenEine Bedingung für den erfolgreichen Einsatz von Data Mining Werkzeugen ist die Bereitstellung einer "konsistenten, qualitativ hochwertigen Datenbasis". Diese kann am sinnvollsten durch ein Data Warehouse zur Verfügung gestellt werden. AblaufAnsprüche an die DatenDie Eingabedaten stammen meist aus einer Datenbank. Hier können technische
Probleme durch die Art der Speicherung auftreten und Schwierigkeiten im
Zusammenhang mit der Unvollkommenheit der Daten.
Der eigentliche Ablauf
Definition des DatenpoolsDer größte Anteil am Gesamtaufwand eines Mining-Projekts entsteht immer bei der Zusammenstellung und der Aufbereitung der Daten. Die Datenextraktion aus verschiedenen Tabellen, Bereinigungen und Kategorisierungen ist sehr zeitintensiv und sie erfordert neben technischen Fertigkeiten vor allem fachliches Know-how. Fehler an dieser Stelle verzögern Projekte sehr stark und schon die
Hineinnahme
oder das Weglassen weniger Datenattribute kann über Erfolg und Misserfolg
entscheiden. Der Data-Mining Lauf und die VisualisierungDie Laufzeit der Dataminingberechnungen bewegen sich in
einem Zeitrahmen von wenigen Sekunden bis hin zu vielen Stunden. Interpretation durch den AnwenderLetztlich obliegt es dem Anwender selbst die nichttriviale Zusammenhänge als solche zu erkennen und sie von den trivialen zu trennen. Danach kann er dann die wirklich wertvollen Teilergebnisse näher untersuchen. Hierzu kann er zum Beispiel einen erneuten Durchgang starten um die Ergebnisse zu verbessern. Methoden und TechnikenKlassifikationAufgabe der Klassifikation ist eine Zuordnung der betrachteten Objekte zu
bestimmten Klassen. Die Zuordnung findet auf Grund von Entscheidungsregeln an,
die auf die auf gewisse Objektmerkmale angewandt werden. Bekannteste Methode dieses Verfahrens ist die Entscheidungsbaummethode, weitere Methoden das Fallbasierte Schließen oder Neuronale Netze. Entscheidungsbaummethode (Decission Tree) Die Struktur eines Entscheidungsbaumes wird in der nachfolgenden Abbildung gezeigt. Dabei sei angenommen, dass die Daten verschiedene Werte im Zielattribut besitzen, d.h. nicht nur ein einzelner Wert (z.B. Kunde=Ja) auftritt. Durch diese Technik können automatische Entscheidungen für ähnliche
Situationen und Problemstellungen in der Zukunft gemacht werden.
Fallbasiertes Schließen Um einen neues Problem zu lösen, wird in der Falldatenbasis (Erinnerung)
nach früheren Fällen gesucht, bei denen ähnliche Probleme zu behandeln waren.
Deren Lösung wird auf das aktuelle Problem übertragen. Neuronale Netze Mit neuronalen Netzen versucht man die Vorgänge im menschlichen Gehirn nachzubilden. Das Wissen zur Lösung einer Aufgabe wird in den Neuronen (den Knoten) eines Netzes abgelegt, zwischen denen dann Verbindungen hergestellt werden. Die Knoten entsprechen dabei einem Neuron des menschlichen Gehirns, die Kanten stellen Verbindungen zwischen Neuronen im menschlichen Gehirn dar. Es ist dem Entscheidungsbaumverfahren sehr ähnlich allerdings erweitert es seine Parameter selbstständig, um genauere Schlüsse zu ziehen. Um ein neuronales Netzwerk sinnvoll verwenden zu können, muss zuerst die Aufgabenstellung anhand von Beispielen trainiert werden. Das Lernen des nötigen Basiswissens wird durch die Angabe von Eingangsmengen und den zu berechnenden Ausgangsmengen erreicht. (zum Beispiel durch Erlernen von bereits verifizierten Beispielen aus der Vergangenheit). SegmentationUnter Segmentierung versteht man die Zerlegung (Partitionierung) einer Datenbasis in einzelne Segmente, die aus jeweils zueinander ähnlichen Datensätzen bestehen. Im Prinzip bedeutet das nichts anderes, als daß diese Datensätze Attribute enthalten, deren jeweilige Ausprägungen zu einem gewissen Grad ähnlich sind, womit Objekte in Gruppen zusammengefasst werden, die vorher nicht bekannt waren. Sichtbar können solche Zusammenhänge mit Semantischen Netzen gemacht werden, die Suche nach den Zusammenhängen werden mit der Clusteranalyse durchgeführt Clusteranalyse Ziel ist es, Strukturen in Daten zu erkennen, also transparente und wissensbasierte Repräsentationen der in Datensätzen inhärent enthaltenen Information zu lernen. Dabei wird von den Rohdaten aus nach noch nicht bekannten Zusammenhängen gesucht. Dies geschieht meist als erster Schritt in sehr großen Datenbeständen, um erste Daten mit ähnlichen Eigenschaften zu sichten, die darauf mittels anderer Techniken weiter untersucht werden.
PrognoseDient zur Vorhersage von unbekannten Merkmalswerten auf der Basis anderer Werte zumeist aus früheren Perioden. Ziel ist es, eine Vorhersage für die Zukunft zu treffen. Die Techniken sind zumeist statistischer Natur. Zeitreihenanalysen zum Beispiel ermöglichen so eine Vorhersage auf der Grundlage interpretierbarer Muster aus der Vergangenheit. Auch zählen Entscheidungsbäume zu den Prognose Methoden des Data Mining. AbhängigskeitsanalyseBeziehungen zwischen verschiedenen Merkmalen eines Objektes. Diese Beziehungen können zu einem bestimmten Zeitpunkt erreignen, oder über eine Periode manifestieren. Die Warenkorbanalyse ist das bekanntestes Beispiel. Auch können Verfahren wie Informationsflußgraphen zu dieser Methode gezählt werden. Warenkorbanalyse Dabei werden Gruppen von häufig gemeinsam verkauften Produkten aufgefunden. Sie kommt fast ausschließlich im Einzelhandel zur Anwendung und stellt hier die beste Möglichkeit bereit, das Kaufverhalten zu analysieren. Die Ergebnisse können dazu dienen, die einzelnen Produkte gemäß ihrer Gruppenzugehörikeit in den Regalen aufzustellen. Ist es möglich, die Warenkorbanalyse mit Kundendaten zu verknüpfen, können Kaufwahrscheinlichkeiten für zukünftige Einkäufe errechnet werden. Außerdem kann man dadurch leicht kundenspezifische Werbung anbieten. Informationsflußgraphen Dient zur Analyse von Beziehungen zwischen den Datensätzen. Diese Methode versucht Beziehungen zwischen den einzelnen Datensätzen herzustellen. Meistens wird diese Methode benutzt um Marketingaktionen besser auf einzelne Kunden abstimmen zu können. AbweichungsanalyseBei obigen Aufgaben geht es darum Regelmäßigkeiten aufzufinden. Dies dient der Findung von Objekten, die der Regelmäßigkeit der meisten anderen Objekte nicht folgt. Bei diesen ,,Ausreißern" kann es sich um fehlerfreie und interessante Merkmalsausprägungen handeln oder aber um falsche Daten. Die Zielsetzung der Abweichungsanalyse besteht darin, die Ursachen für die untypischen Merkmalsausprägungen des Ausreißers aufzudecken. Wird ein Ausreißer im Datenbestand identifiziert, so durchsucht das DM Tool alle assoziierten Datenbestände, um zu klären was darauf Einfluss genommen hat und zu einer abweichenden Merkmalsausprägung geführt habt. Handelt es sich bei einem Ausreißer um einen fehlerhaften Wert, wird dieser aus dem Datenbestand gelöscht. Da auf diese Weise die Datenqualität gesteigert wird, werden Methoden zur Abweichungsanalyse oft in der Phase der Vorverarbeitung benutzt. Sonstige AlgorithmenZwei wichtige, nicht eindeutig in die obige Klassifizierung einzuordbare Algorithmen sind die genetischen Algorithmen und die "Nearest-Neighbor Methode". Genetische Algorithmen Dies sind Optimierungstechniken, die Prozesse benutzen, so wie genetische Kombination, Mutuation und natürliche Selektion in einem auf Evolution basierten Konzept. Nearest neighbor Methode Dies ist ein Klassifizierungsverfahren, bei dem für einen neuen Datensatz die Entfernung zu allen bekannten Datensätzen berechnet wird und die k nähesten - bestimmen die Klasse. Dafür ist natürlich die Auswahl einer geeigneten Abstandfunktion wesentlich.
|
Weiterführende Informationen |
Algorithmen in DM >[ http://www.numerik.uni-kiel.de/~mha/Algorithmen4DM.pdf] DM in Machine Learning >[ http://www.informatik.uni-rostock.de/mosi/Vorlesung/Folien/DM0102/introduction01.pdf] DM Forum >[http://www.database-marketing.de/mininghome.htm] Data Mining >[http://www.biz.uiowa.edu/class/6k220_park/OldStudProjects/F97/group10/Brief_history.htm] An Introduction to Data Mining >[http://www3.shore.net/%7Ekht/text/dmwhite/dmwhite.htm] DIMACSWorkshop on Data Mining in the Internet Age >[ http://dimacs.rutgers.edu/Workshops/DataMining/abstracts.html] Glossary of Data Mining >[http://www3.shore.net/%7Ekht/glossary.htm]
Datamining Seminar |
Verweise auf Arbeiten anderer Gruppen |
|
>Entstehungskontext | Konzepte und Techniken | Entwicklung und Auswirkungen | Praxis | Bewertung |