05.02.2012


27.08.2010

Evaluation von Modellierungsvarianten im Kontext spaltenorientierter Data Warehouses



Spaltenorientierte Datenbanken gewinnen im Bereich der Data Warehouse Systeme zunehmend an Bedeutung. Neben der Art der Datenorganisation setzen die Hersteller auf unterschiedliche Implementierungskonzepte, um die Effizienz weiter zu steigern. In Bezug auf die Datenmodelle stellt sich jedoch die Frage, ob weiterhin die typischen Data Warehouse Schemata, wie z.B. Star- und Snowflake-Modell, erforderlich sind. Die Transformation der operativen Datenstrukturen in eines der klassischen Modelle beansprucht einen Großteil der Ressourcen eines DWH-Projekts. Dies führt zu der Frage, wie die Wahl eines Datenmodells die Performanz eines spaltenorientierten Data Warehouse beeinflusst.
Verschiedene Modelle werden in einem Benchmark gegenübergestellt. Neben einem Star- und Snowflake-Modell werden ein normalisiertes, operatives Datenschema und ein vollständig denormalisiertes Schema für das Leihbibliotheks-Beispiel des viadee OSBI-Labors entwickelt, ETL-Prozesse für alle Modell- und Datenbankvarianten wurden auf Basis der Pentaho-Suite erstellt. Der Benchmark betrachtet den Ressourcenverbrauch beim Laden der Daten sowie bei der Ausführungszeit von analytischen Ad-Hoc-Abfragen auf unterschiedlichen spaltenorientierten Open Source Datenbanksystemen: Infobright und MonetDB.
Die Messwerte dieses Vergleichs lassen überraschend kleine Unterschiede zwischen dem normalisierten Modell und den typischen Data Warehouse Schemata erkennen. Das denormalisierte Datenmodell grenzt sich von diesen jedoch insbesondere durch den hohen Speicherbedarf ab. Wenn der Aufwand zur Modellierung der ETL-Prozesse in die Betrachtung der Ergebnisse einbezogen wird, ist das um Data Warehouse-Funktionen erweiterte, operative Datenmodell gegenüber den anderen Schemata klar zu bevorzugen.

Author: Andreas Hellmann
Erstellt: 2010
Betreut durch: Prof. Dr. Achim Schmidtmann

Inhaltsverzeichnis (PDF)