Die Anfänge der Datenbanken und den darauf aufbauenden Strukturen
des Datamining und Datawarehousing waren in den frühen 60er. Hier
wurden die Daten noch auf Medien wie Magnetbändern abgelegt, die
nur eine schlechte Zugriffsmöglichkeit aufweisen. Ausserdem wurden
für jedes Programm eine eigene redundante "Datenbank" (meist
nur als Textfiles ohne oder mit Struktur abgespeichert) erstellt.
In den 60er Jahren entwickelte sich die DSS ("decision
support systems") aus denen sich dann auch der Bereich des Datawarehouse
entwickelte. Bis ca. zur Mitte der 60er Jahre bestand die Welt der DSS
aus sogennanten "master files", die die Daten auf Magnetbändern
enthielten. Für jede Anwendung wurden eigene Programme geschrieben,
die die Reports für die Daten lieferten
Anfang der 70er kam es dann jedoch zur Entwicklung des sogennaten "direct
access storage device (DASD) - darunter fallen alle heute üblichen
Speichermedien: HDD, CD-ROM, usw.
. Diese neue Art der Datenspeicherung öffnete die Tür zu neuartigen
Systemen, wie den DBMS ("database management systems"), oder
Kontrollsystemen zur Überwachung von Daten, usw).
Gegen Ende der 80er Jahre entstand dann das Gebiet Datamining als eine
Disziplin in der Informatik mit Bezügen zur Logik, Künstlichen
Intelligenz und Statistik. Das Wort Datamining steht für "Database
mining", dem Ausbeuten von Datenbanken nach wertvollen Informationen.
Diese Disziplin steht im engen Zusammenhang zu den Methoden im Bereich
des Datawarehouse.
Zu dieser zeit wurde auch ein neues Programm immer populärer: das
"extract" - Programm. Diese Anwendung durchforstet Dateien,
extrahiert Daten nach bestimmten Kriterien und speichert diese Daten an
einem anderen Ort. Wegen der verbesserten Performance und Datenkontrolle
erhielten diese Programme eine große Akzeptanz unter den Firmen.
Diese "extract" Programme extrahieren die Daten jedoch nicht
nur aus einer einzelnen Datenbasis, sondern auch aus Resultaten eines
anderen extract-Prozesses. Dies führte in Unternehmen schliesslich
zu den "spiderwebs" (siehe Abbildung 1 aus W. Inmons "Building the Datawarehouse").
(Abbildung 1)
Spiderwebs führten jedoch zu einer Reihe von Problemen:
· Glaubwürdigkeit der Daten (da die Daten oft mehrmals abgespeichert
werden, mit verschiedenen Zuständen, kann es zu unterschiedlichen
Ergebnissen kommen)
· Produktivität (oft lange Suche nach Daten)
· Daten, aber keine Informationen (durch hin- und herkopieren der
Daten ist es nicht möglich sie wieder auf eine einzige Datenbasis
zu reduzieren)
Heute gibt es die bekannten Datenbanksysteme. Hier gibt es eine klare
Trennung zwischen Programmen und Daten.
Vorteile:
· logische Datenunabhängigkeit (von deren Darstellung)
· wenig Redundanz
· Integritätsbedingungen leicht prüfbar/haltbar
· Zugriffsschutz
· flexibler Gebrauch der Daten
>Information Retrieval
>Requirement
Engineering
>Knowledge Engineering
|
> Hans Wilhelm Wieczorrek Peter Mertens; Data X Strategien; Springer,
Germany, 1999.
> Mathias F. H. Hahn; Algorithmen
für Data Mining; 2001
> W. H. Janko, P. Bruhn, S. Koch, M. Hahsler; Data
Mining, Umfeld, Prozeß, Methoden 2000
>Vivek Gupta. An Introduction to Data Warehousing, 2002. system-services.com/dvintro.asp
>Walter Immons. Building the Data Warehouse. John Wiley & Sons,
Inc, 1992
>Dr Rudolf Munz Jo Bager, Jörg Becker, 1997, c't 3/97
>Prof. Bernd Breutmann, "IT-Kompaktkurs Datenbanken"www.fh-deggendorf.de/doku/fh/meile/bachelor/lehre/db/f12/skript12.pdf
www.fh-deggendorf.de/doku/fh/meile/bachelor/lehre/db/f13/skript13.pdf
|