Wat is een data warehouse?
Het is een proces gedreven door een duidelijke bedrijfsvraag naar gecombineerde informatie op verschillende niveau's in de bedrijfshiërarchie ter aandrijving van de bedrijfsprocessen. Het wordt typisch gedefinieerd als een centrale opslag voor het combineren van bedrijfsproces informatie dat komt uit verschillende bronsystemen en dat meestal ook bewaard wordt met historiek.

Wanneer deze centrale informatieverzameling voor de gebruikers ter beschikking gesteld wordt onder de vorm van rapportering, wordt dit een bijzonder krachtig middel om de business op te volgen en om zaken te optimaliseren als kostenbeheer, human resource management, aankopen, marketing acties, enz...

Historische informatie wordt bewaard om in staat te zijn een bedrijfssituatie te herscheppen zoals het zich op een punt in het verleden voordeed. Beide de "historiek" en "integratie" karakteristieken onderscheiden een data warehouse van elk ander databank project.

Deze integratie kan enkel bereikt worden door het gebruik van "gedeelde dimensies" die gestandaardizeerde gegevens omvatten zodat bijkomende bedrijfsgegevens makkelijk kunnen bijgeplugged worden in het data warehouse model zonder veel bijkomend werk (gebaseerd op bvb werknemersnummers, BTW numbers, rijksregistercodes, enz...).

De gegevens in het data warehouse krijgen
Gegevens worden overgeladen vanuit de bronsystemen naar het centrale data warehouse. Deze bronsystemen kunnen zijn: ERP systemen (zoals SAP en Oracle Applications), CRM applicaties (als SIEBEL), of elk ander op maat ontwikkelde applicatie met gegevens in een databank, spreadsheet of ander formaat.

De ETL (Extractie, Laad en Transformatie) processen halen de gegevens uit de bronsystemen, transformeren de gegevens naar het nodige formaat, kuisen de gegevens op indien nodig en laden deze naar het data warehouse. Dit gebeurt aan de hand van ETL tools, of met zelfgeschreven code door ETL experten. Het laden gebeurt in batches, meestal 's nachts. Indien er een behoefte is aan onmiddellijk doorsturen van gegevens vanaf het moment deze in de bronsystemen aangemaakt worden, spreekt men over EAI, een "messaging" dienst die automatisch gegevens doorstuurt naar andere databanken op het moment van het ontstaan of wijzigen van data.

Centrale stockage
De centrale data warehouse bestaat uit 2 hoofddelen : de "staging" area (data voorbereidingslaag) waarin alle gegevens binnen komen en opgeschoond worden en de "data marts" waarin alle actuele en historische informatie ter beschikking staat voor rapportering. De gegevens in deze data marts worden bewaard in een gestandaardizeerde manier. Al deze structuren worden ontworpen met een data warehouse architectuur tool (DWH Entity Relationship Diagram) en automatisch gegenereerd in de onderliggende databank.

De gegevens worden bewaard in typische sterschema modellen, wat gelijk staat aan een dimensionele sterschema aanpak. Voor elke ster is er één(soms meer) centrale tabel met feiten (numerieke gegevens als verkopen, inventaris- en aankoopgegevens), omgeven door verschillende dimensie tabellen (vb: klanten, werknemers, grootboek, enz...).

Data + context = Informatie
Alleen de data op zich heeft geen betekenis, tenzij je er één aan geeft. Iets als "45TGGY-2004" kan alles betekenen, maar in de context van "Budget Nummer", zou het onmiddellijk een belletje moeten doen rinkelen voor de mensen die dit kennen. Data is één ding, maar het heeft ook een beschrijving nodig die we metadata noemen. Dus, we hebben een beschrijving en gegevens, geeft samen informatie !

Metadata is voor de rapportering onontbeerlijk. Dit moet zo exact mogelijk beschreven worden, teneinde geen ruimte te laten voor verkeerdelijke interpretatie en zodoende te garanderen dat mensen over hetzelfde spreken bij het gebruik van informatie.