Goud en gruis

Bruno Leijnse Redacteur bij Trends

Data mining is niet nieuw. Wel nieuw is de prijs. Twee fabrikanten brengen pakketten uit voor minder dan 30.000 frank.

De afgelopen maanden hebben Scenario van het Canadese Cognos en BusinessMiner van het Franse Business Objects het begrip data mining binnen het bereik van de “kleine man” gebracht.

“We spreken nu over pc data mining,” zegt country manager Gilles Hocepied van Business Objects. U heeft er geen gigabytes aan gegevens, geen supercomputers en zelfs geen servers met meerdere processoren voor nodig. De toepassingen liggen niet alleen op het terrein van de marketing en verkoop. Ook voorraadbeheer, analyse van de downtime van machines, prognoses over het gedrag van aandelenmarkten… behoren tot de mogelijkheden.

Essentieel is data mining een systeem om via statistische algoritmes patronen en verbanden in gegevens te ontdekken. Daarmee is het een laatste stap in de evolutie van beslissingondersteunende systemen, een evolutie die terug te vinden is in de types producten die leveranciers vandaag aanbieden en die elkaar aanvullen, eerder dan verdringen.

Dat gamma van wat in mooi Engels ook wel business intelligence tools wordt genoemd, ziet eruit als volgt :

Ondervragings- en rapporteringsmiddelen. Alias Query and Reporting. Het laagste niveau van kennishulp. U hoeft geen databasetaal zoals SQL meer te kennen om antwoorden uit uw databank te puren. U kan met de muis selecties maken op een grafische interface en vragen laten beantwoorden als : “Geef me de verdeling van mijn omzet over mijn verschillende producten in januari dit en in januari vorig jaar.” U kan dergelijke ondervragingen opslaan, zodat u op een eenvoudige manier dezelfde of een gelijkaardige ondervraging later opnieuw kan uitvoeren (of door anderen laten uitvoeren).

Bekende programma’s van dit type zijn Impromptu van Cognos, Crystal Reports van Seagate en Reportsmith van Borland.

De installatie van deze en andere business intelligence-programma’s bovenop uw database is de voorbije jaren fel vereenvoudigd, maar nog altijd voorbehouden voor databasespecialisten. Zij zorgen ervoor dat de doorgaans disparate database-structuur, met zijn tabellen en relaties, omgezet wordt in knoppen en menu’s die voor de doelgroep begrijpelijk zijn.

Olap– of on line analytical processing-programma’s geven niet alleen een beeld van een toestand, maar laten toe om op zoek te gaan naar de oorzaken. Waarom was de marge in kwartaal X op product Y zo laag ? U kan dan inzoomen op uw verkooppunten en bijvoorbeeld ontdekken dat in een bepaalde regio één winkel een bijzonder grote promotie tegen een zeer lage prijs heeft opgezet om de druk van een concurrent te counteren. U kan uw gegevens op een klik van alle kanten bekijken (geografisch, in de tijd, volgens product) en synthetiseren in nieuwe kolommen met bijvoorbeeld gemiddelden of percentages.

Dat vergt complexe relaties waarvoor speciale databases worden aangemaakt. Uw gegevens (uit Excel-spreadsheets, ASCII-bestanden, databases…) worden daarom meestal eerst geïmporteerd in een multidimensionele hyperkubus-database, die eigen is aan de maker van het Olap-product of gebouwd is op basis van een bekend “MDDB” (multidimensionele database) formaat, zoals Essbase van Arbor Software of Oracle Express van Oracle. Opnieuw is er expertise nodig om dit importproces op te zetten. Een alternatief vormt relationele Olap, met producten als Informix-MetaCube van Informix of Platinum InfoBeacon van Platinum Technologies, die u toelaten direct met uw relationele database te werken. Beide benaderingen hebben hun beperkingen. Goed om weten is bijvoorbeeld dat een hyperkubus meestal groter is dan de oorspronkelijke database behalve bij gebruik van compressie en dat het importeren echt wel tijd in beslag neemt. Enkele minuten voor databases met een paar duizend records, enkele uren voor grotere databases. “Een recente benchmark bij een klant met 6 miljoen records, 8 dimensies en een 10-tal indicatoren op een Microsoft SQL Server met 128 MB Ram-geheugen nam 4,5 uur in beslag,” herinnert zich Ronald de Veth van Cognos, dat zich op die snelheid laat voorstaan.

Bekende Olap-producten zijn Powerplay van Cognos, BusinessObjects van het gelijknamige bedrijf, Oracle Express van Oracle, Decision Support Suite van Pilot Software of The SAS System van SAS Institute.

Executive Information Systems (EIS), zoals Commander EIS van Comshare, vermelden we in het voorbijgaan. Het zijn beslissingsondersteunende systemen voor topmanagers, die tot doel hebben informatie zo volledig, eenvoudig en begrijpelijk mogelijk te consolideren.

Data mining software is de jongste spruit van deze informaticatak. Olap is maar zo goed als de vraag die u stelt. U heeft een intuïtie en gaat die controleren. Data mining heeft de pretentie van zelf de juiste antwoorden boven te halen. Het gaat op zoek naar patronen en afwijkingen en haalt zelf trends naar voren. Daarvoor worden statistische methodes, beslissingsbomen of “neurale netwerken” gebruikt. Data mining kan met uw volledige database werken, maar gebruikt meestal een willekeurige selectie uit die data om het geheel beheersbaar te houden.

Data mining vergt geen onoverkomelijke investeringen

Scenario, het onlangs aangekondigde product van Cognos, wil komaf maken met de idee dat data mining draait rond “multimiljoendollarinvesteringen voor enkele statistici”. Het kost 26.900 frank. Het verkoopdoel is voorlopig vastgesteld op 25 % van de Cognos’ Powerplay-gebruikers (220-230.000 installaties wereldwijd). “In zijn huidige versie beantwoordt Scenario vragen als : waar komt mijn winst vandaan ? of welk product heeft de hoogste kosten ? In een volgende release zullen er ook wat-als-analyses en voorspellingen mee mogelijk zijn,” stelt Ronald de Veth. “We willen onze gebruikers een middel geven om bijvoorbeeld producten te segmenteren, vergelijkingen te maken als ik nou adverteer, welk medium heeft dan het meest effect voor mij ? en ook om uitzonderingsgevallen eruit te halen.”

De werkwijze ? U importeert de data (niet noodzakelijk uit een relationele database), kiest een variabele die u gaat onderzoeken (bijvoorbeeld de winst), selecteert de factoren die u in de vergelijking wil betrekken (periode, distributiekanaal…) en u lanceert het programma, dat dan een analyseset én een testset extraheert. U kan dan een gewenste nauwkeurigheid voor de conclusies instellen. Scenario geeft de statistische waarschijnlijkheid voor zijn conclusies aan.

De analyse-opstelling wordt vastgelegd in een sjabloon ( template), zodat u ze later kan herhalen. Als u iets merkwaardigs opmerkt in de data, kan u die situatie opslaan (als een bookmark), zodat u ernaar kan terugkeren, of ze zelfs doormailen naar een collega die ze dan ook kan bekijken. Ronald de Veth : “Met één druk op de knop kan u ook altijd onmiddellijk de data zien die onder een bepaalde conclusie zitten.”

De grafische interface zet niet alleen de relevante factoren in de verf, maar ook hun impact en de uitzonderingsgevallen (de winst kan evenredig zijn met uw adverteringsbudget, maar bijvoorbeeld niet als de concurrentie een uitverkoop houdt).

Business Objects, de gedoodverfde concurrent van marktleider Cognos, bracht begin februari BusinessMiner op de markt, een programma dat net als Scenario op beslissingsbomen is gebaseerd. Het kost 22.000 frank als onderdeel van de BusinessObjects suite en 45.000 frank apart. BusinessMiner visualiseert dat proces ook als dusdanig en u kan op elke vertakking ingrijpen en dieper ingaan. In een demo waarin een bank het profiel van zijn meest winstgevende klanten zoekt, besluit BusinessMiner bijvoorbeeld dat dit de klanten zijn met een hoge kredietlimiet, alleenstaand, met een inkomen boven 2400 dollar/maand en een gehuurde verblijfplaats. U hoeft echter die suggesties niet aan te nemen : door sommige variabelen wel, en andere niet in de analyse te betrekken kan u uw eigen randvoorwaarden aan het programma opleggen. Of u kan het profiel vragen van de klanten die met X percent zekerheid winstgevend zijn. Zegt consultant Isabelle Nuage van Business Objects : “In de volgende release verwachten we dat profiel te kunnen omzetten in een databasecommando, zodat u direct een mailing kan doen naar de klanten die u zonet heeft geselecteerd.” Niet te verwonderen dat de belangstelling voor dit soort programma’s hoog oploopt.

Onderhouden van gegevens is van cruciaal belang

Voor u te enthousiast wordt, wat zijn de hinderpalen voor data mining ? Die liggen in de kwaliteit van de gegevens en in de inspanning die nodig is om ze eerst in bruikbare formaten te gieten en ze vervolgens ook te onderhouden. “Vooral het maintenance aspect mag niet worden onderschat,” beklemtoont directeur Wilfried De Witte van Cognos België (die de snelle aanpasbaarheid tot de sterke punten van Cognos’ software rekent). Klanten verhuizen, fuseren, richten filialen op. U brengt nieuwe producten uit, stopt met andere, herdoopt een derde. Als dergelijke wijzigingen niet alert worden doorgevoerd in uw beslissingsondersteunende systemen, zijn deze laatste spoedig waardeloos. Zegt Gilles Hocepied van Business Objects : “Wat de gebruikers vragen is : toegang tot de data, ze gemakkelijk kunnen bijwerken en de mogelijkheid om nieuwe data in te brengen.”

Komt daarbij dat data zelden schoon zijn. Het opzetten van een data mining oplossing omvat gewoonlijk een hele inspanning om ervoor te zorgen dat klanten onder éénzelfde naam bekend zijn (en niet als DEC, Digital Equipment en Digital), dat ze dezelfde dataformaten en eenheden gebruiken en dezelfde conventies voor bijvoorbeeld het boeken van inkomsten uit langlopende bestellingen. Grijnst Ronald de Veth : “Het eerste wat je vaak ontdekt als je een demonstratie doet bij een klant, zijn fouten in zijn data.”

BRUNO LEIJNSE

Een overzicht van commerciële en niet-commerciële data mining programma’s vindt u op http://www.kdnuggets.com.

SCENARIO, WILFRIED DE WITTE (COGNOS) Data mining op elk bureau.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content