Het magazijn wordt groot
Data warehouses zijn geëvolueerd van een onderwerp voor IT-specialisten naar een topic voor managers. Ze zijn de geheime wapens waarmee bedrijven aan klantenbinding willen doen.
Klop de hype eraf en een data warehouse is gewoon een database. “Een informatieplatform,” zoals consultant Rudi De Backer van Coopers & Lybrand het omschrijft.
De term, letterlijk “gegevensmagazijn” of “gegevenspakhuis”, suggereert een database waarin alles aan gegevens over de activiteiten van een onderneming wordt opgeslagen, klaar om te worden opgehaald. Het verschil met een “gewone” database zit hem hierin dat een data warehouse niet voor operationele toepassingen is ontworpen, zoals voor het registreren van transacties of het opmaken van laadlijsten. Data warehouses dienen als basis voor beslissingsondersteunende systemen. Ze moeten vlotte analyses mogelijk maken : marktsegmenten helpen definiëren, aankooppatronen detecteren, bronnen van fouten opsporen in de productie, klanten identificeren aan wie bijkomende producten kunnen worden verkocht enzomeer. Ze zijn een teken van deze tijd, met zijn intense competitie, deregulering en een voortdurende schaalvergroting, die erom vragen markten beter te begrijpen en liefst over grenzen van firma’s en landen heen. Tegelijk is de hardwarekost van het opslaan en verwerken van gegevens spectaculair gedaald, wat de aantrekkelijkheid van data warehouses, die uitzonderlijk gulzig zijn op dit gebied, verhoogt.
Ook in België zijn tientallen firma’s bezig met de bouw van een data warehouse : vrijwel alle banken, een aantal verzekeringsinstellingen, distributeurs, productiebedrijven ( Interbrew, General Biscuits…), Belgacom, de Christelijke Mutualiteiten, enzovoort.
Toch blijft men spreken van data warehouses “bouwen”. Het is ook geen product, maar een “project”. Volgens Rudi De Backer kan het prijskaartje oplopen van tien tot enkele honderden miljoenen, afhankelijk van de bedrijfsgrootte en complexiteit. De realisatietijd ligt tussen 6 maanden en twee of meer jaren. Om de haalbaarheid van grote data warehouse omgevingen te bewijzen, wordt eerst een pilootopstelling gerealiseerd, die op zich al enige tientallen miljoenen kan kosten. Banken als Kredietbank, Generale Bank of Cera Bank blijven ook daarna voorzichtig en bouwen hun data warehouse gradueel op met nieuwe domeinen en specifieke toepassingen.
Zet de standaard recht
Data warehouses zijn een oefening in business re-engineering. Er moet een multidisciplinair team voor worden samengesteld dat de potentiële informatiebronnen inventariseert en uitmaakt welke gegevens er precies in het data warehouse worden opgenomen en hoe die worden gedefinieerd. De kans om daarbij gegevens doorheen de organisatie te standaardiseren is één van de meest geciteerde voordelen van data warehouses. General Biscuits profiteerde van zijn project om een common business language te definiëren voor zijn bedrijven in Duitsland, Nederland en België. Vervoersmaatschappij De Lijn wil ermee bereiken dat prestaties in het bedrijf op een gestandaardiseerde manier kunnen worden gemeten.
Gewoonlijk wordt er een consultant bijgehaald om de business re-engineering en -modellering te begeleiden, maar het opzetten van een data warehouse blijft extra complex omdat er zoveel verschillende soorten soft- en hardware bij komen kijken.
Niet enkel de keuze van de computers is belangrijk, ook het opslagsysteem is cruciaal, met prijzen die in de high-end systemen tot tien keer hoger liggen dan wat voor goedkope schijven wordt betaald (hier duiken ook nichespelers op zoals Data General). Ook het netwerk moet aandacht krijgen. Een hoge in/uit-capaciteit heeft geen zin als het netwerk de gegevens niet tot bij de gebruiker krijgt.
Databases kunnen klassiekers zijn als Oracle, Sybase of Informix, of gespecialiseerde multidimensionele databases als Essbase (van Arbor), Oracle Express of Red Brick Systems.
Tools voor het bijhouden van metadata worden nu vaak met de database meegeleverd. Deze “data over data” zijn cruciaal in een implementatie. Ze catalogiseren wat de gebruiker in het warehouse kan vinden, waar de gegevens vandaan kwamen, hoe ze zijn getransformeerd… en ze houden de vorige metadata-versies bij. Zeer praktisch als er discussie ontstaat over de waarde van bepaalde gegevens.
Gereedschap voor het schoonmaken en invoeren van data is onontbeerlijk. De aanvoer van gegevens kan 80 % van de kost van het data warehouse vertegenwoordigen als er zonder gespecialiseerde hulpmiddelen wordt gewerkt, waarschuwt het Britse Ovum in een recent rapport. De problemen gaan van incompatibele dataformaten en slecht gedocumenteerde bestandsstructuren tot het overbruggen van de kloof tussen de definities in de productiesystemen en die in het data warehouse. Mogelijk zijn de ingevoerde data niet consistent en moeten ze eerst worden gefatsoeneerd. Een Britse studie van KPMG/Conspectus Research uit 1996 haalt het geval aan van een bank waar één klant 13 rekeningen had onder 10 verschillende namen. Hij had 8 verschillende adressen en 13 klantnummers. Op basis van deze kwaliteit van gegevens wordt het moeilijk om beslissingen te nemen. Wie dagelijks gegevens in een data warehouse wil invoeren, maakt best geen vergissingen bij de inschatting van de duurtijd van dat proces. Er is een geval bekend van een buitenlandse bank, weliswaar enkele jaren geleden, die een data warehouse moest opgeven omdat het dagelijks opladen van de gegevens meer dan 24 uur begon te duren (Rudi De Backer van C&L wijst erop dat er sindsdien heel wat verbeterd is aan de invoertools).
Rapportering kan via eenvoudige visuele ondervragings- en rapporteringsmiddelen zoals Impromptu van Cognos of Crystal Reports van Seagate (in de desktopsfeer), of meer geavanceerde OLAP- of on line analytical processing-programma’s van bedrijven als SAS Institute, Pilot Software, Business Objects, Brio, IQ Software of opnieuw Cognos. Olap geeft niet enkel een beeld van een toestand, maar laat ook toe om op zoek te gaan naar de oorzaken. Waarom was de marge in kwartaal X op product Y zo laag ? Een verkoopsdirecteur kan inzoomen op een afwijkend resultaat van een verkoper en bijvoorbeeld ontdekken dat in een bepaalde regio één winkel een bijzonder grote promotie tegen een zeer lage prijs heeft opgezet, om de druk van een concurrent te counteren. Generale Bank, Cera Bank en Kredietbank gebruiken alle drie tools van SAS Institute voor outflow en rapportering in hun data warehouses. In zijn rapport Ovum evaluates : OLAP voorspelt Ovum een sterke groei voor Olap-tools en een consolidatie door de intrede van grote spelers zoals Oracle en Microsoft. De jongste nieuwigheid is om Olap te combineren met intranets ( DHL in België heeft een project in die zin). “Web-klare Olap laat toe om informatie beschikbaar te maken voor al wie ze nodig heeft, zonder de rompslomp om honderden of duizenden client tools te kopen en te onderhouden,” juicht senior consultant Eric Woods van Ovum, al voegt hij er wel aan toe dat de klanten nog moeten overtuigd worden dat er geen veiligheids-, performantie- en functionaliteitsvraagstukken aan vasthangen.
Verdrinken in patronen
De trend is om altijd maar meer intelligentie te stoppen in de rapporteringstools. Dat brengt ons bij het concept data mining. De idee is om met een combinatie van statistische methodes, beslissingsbomen en “neurale netwerken” automatisch patronen, afwijkingen en trends naar boven te halen. Een ambitieus concept waar experts wel eens plegen mee te lachen. “Het voornaamste effect van data mining zal zijn, dat het management een tot nog toe onvoorstelbare belezenheid in statistiek zal verwerven, net zoals de opkomst van desktop publishing halfweg de jaren ’80 een zin voor typografie met zich meebracht,” schrijft MIT Media Lab researcher Michael Schrage sarcastisch. Hij voorspelt dat ondernemingen zullen verzinken in statistisch significante patronen, die daarna nog verder zullen moeten worden onderzocht, wat nog meer gegevens nodig zal maken.
Ook consultant Rudi De Backer van Coopers & Lybrand ziet een totaal nieuwe niche opengaan in de begeleiding van data delvende klanten. “De problematiek van data mining is niet eenvoudig. Je moet iets kennen van statistiek (zelfs met een eenvoudig product) en zonder grondig inzicht in de bedrijfs- of sector-eigen problematiek bestaat er gevaar voor verkeerde interpretaties. Hij wijst erop dat data mining het opstellen van hypotheses vergt, het modelleren van de data (waarvoor de gebruiker tenminste gedeeltelijk op het ontwerp van het data warehouse moet kunnen terugvallen), het kiezen van een dataset en van een testset. “Veel mensen denken nog dat je maar op een knop moet drukken, maar dat is niet het geval. Het is nog complexer dan multidimensionele analyse,” stelt hij.
Al doende geleerd worden
Data warehouses worden vanuit een zeker optimisme aangepakt, blijkt uit de resultaten van een kleine rondvraag die Allshare Benelux NV (agent voor Comshare-producten in de Benelux) dit voorjaar hield. Daaruit viel af te leiden dat, hoe verder firma’s in het ontwerp gevorderd waren, hoe meer producten zij nodig hadden en hoe langer de geschatte duurtijd van de installatiefase werd. “De complexiteit wordt onderschat,” besluit directeur Frank Peeters.
Eenmaal operationeel, is het zaak het data warehouse zo te houden. De snelle bedrijfsevolutie, met zijn overnames, nieuwe producten en nieuwe markten, was een raison d’être voor de database. Ze is ook een vijand. De onderhoudskosten kunnen hoog oplopen. Ook technisch. De componenten waaruit het data warehouse is gebouwd, hebben elk hun eigen levenscyclus, die niet noodzakelijk het geheel hoeft te dienen.
De industrie is zich van die complexiteit bewust en probeert het de klant makkelijker te maken door sleutel-op-de-deur oplossingen aan te bieden. Bekende namen zijn Information Builders, IBM, SAS Institute, Sagent Technology, Prism Solutions, Arbor… Daarnaast bundelen bedrijven als Sybase of Digital Equipment “best-of-breed” producten tot een oplossing. Tenslotte zijn er ook al “voorverpakte datamarts” voor specifieke toepassingen, zoals de RiskAdvisor van Platinum Technology voor de verzekeringsindustrie.
De vraag naar de return on investment van een data warehouse wordt zelden kwantitatief beantwoord, ondervindt Rudi De Backer. “Er wordt vooral op kwalitatieve baten gemikt. Het is een pro-actieve beslissing, het gaat erom nieuwe mogelijkheden en opportuniteiten te creëren.” Daarnaast is het management er zich ook van bewust dat de kost van een data warehouse eigenlijk maar de veruitwendiging is van verborgen kosten die al in de onderneming bestaan. Een deel van de informatie die nu uit het warehouse kan worden gehaald, moest vroeger ook worden verzameld. Rudi De Backer : “Het verschil is, dat dat nu maar één keer en gecontroleerd gebeurt.”
BRUNO LEIJNSE
DE BANKEN In België bouwen ze bijna allemaal een data warehouse.
Fout opgemerkt of meer nieuws? Meld het hier