EEN MODEL VAN BEDRIJVIGHEID
TWEE TYPES DATABASES.
Data warehouses kunnen uitgevoerd worden met een gewone relationele database (wat het voordeel heeft dat de bestaande IT-ploeg die kent) of met speciale multidimensionele databases. Waar het op aankomt, is dat het ontwerp anders is. In een productiedatabase wordt de informatie opgebroken in kleine tabellen die snel kunnen worden doorzocht en waarvan de informatie uniek is. De unieke gegevens van een personeelslid staan bijvoorbeeld typisch in één tabel, die een uniek nummer als sleutel meekrijgt. Alle verdere verwijzingen naar dat personeelslid in de database gebeuren via die unieke sleutel. Op die manier wordt vermeden dat informatie op meerdere plaatsen wordt bijgehouden en vervolgens niet overal tegelijk wordt bijgewerkt. Complexe systemen kunnen echter honderden dergelijke atomaire tabellen hebben, die dan door relaties aan elkaar moeten worden gekoppeld om iets betekenisvol uit te drukken (zoals iemands pensioenrechten in een bedrijf). Toepassingen kunnen daarmee overweg, maar iemand die zo’n systeem wil ondervragen op een andere dan op een strikt voorgeprogrammeerde manier heeft een probleem. Niet omdat de commando’s daarvoor ontbreken, maar omdat de structuur van de relaties nauwelijks te overzien is. En ondervragen is precies wat men met een data warehouse wil doen.
Data warehouses worden meestal ontworpen met het zogenaamde dimensionele model. Daarin bekommert men er zich niet om dat de gegevens zo uniek mogelijk worden opgeslagen. Een data warehouse dient per definitie niet om gegevens te veranderen. Doel is om op een intuïtieve manier door een berg informatie te navigeren. Een dimensioneel model beschrijft elk gegeven aan de hand van een aantal dimensies. Bijvoorbeeld. Van product A wordt op plaats B tijdens periode X een aantal stuks verkocht voor een bepaalde prijs. De stuks en de prijs vormen het centrale gegeven. Product, plaats en periode zijn de dimensies, die in aparte tabellen worden ondergebracht. Typische dimensies zijn tijd (met als courante attributen dag, week, maand, kwartaal, jaar), geografie ( vestiging, regio, land), bedrijf, klant, product ( type, merk, kleur, verpakking) enzovoort… Het is zaak om bij het modelleren van de dimensies de logische hiërarchieën te voorzien waarvan men achteraf synthetische gegevens wil hebben. Om de opzoekingssnelheid nog te verbeteren, kan men niet enkel de ruwe gegevens in het data warehouse invoeren, maar ook nog eens subtotalen, bijvoorbeeld per producttype per kwartaal.
Ralph Kimball, de voormalige CEO van Red Brick Systems, gespecialiseerd in databases voor data warehouses, schat dat een data warehouse voor een grote onderneming zo’n 10 tot 25 van dergelijke sets van gegevens-plus-dimensies zal omvatten, met telkens 4 tot 12 dimensietabellen per set. Volgens Neil Raden en Michael Peterson in Information Week (30/6/97) moet je de omvang van een data warehouse op 4 tot 8 keer de omvang van de ruwe gegevens schatten.
Fout opgemerkt of meer nieuws? Meld het hier