Gefragmenteerde data harde rem op bedrijfsgroei

Columns

Big data is de toekomst. AI is onmisbaar om concurrerend te blijven. Het zijn koppen die in tal van varianten al jarenlang voorbijkomen. De cijfers liegen er niet om: we maken iedere dag steeds grotere hoeveelheden data aan. 2,5 miljoen Terabyte om precies te zijn – dat zijn zo’n 2,5 miljoen PC’s die we iedere dag volledig vullen. En het einde is nog niet in zicht: organisaties én consumenten digitaliseren steeds meer, waardoor we in 2025 naar verwachting dagelijks zo’n 463 miljoen Terabyte aanmaken.

De vraag is hoe je in hemelsnaam zo’n verbijsterende hoeveelheid data op een kostenefficiënte manier bruikbaar maakt. Kort gezegd doe je dit door je data centraal bruikbaar én beschikbaar te maken. De werkelijkheid zit iets complexer in elkaar.

Alle data, verzamelen!

Om waarde uit je data te halen, moet je deze ten eerste op één plek verzamelen. Vooral als je volop gebruikmaakt van verschillende cloudoplossingen, is je data al snel gefragmenteerd over verschillende systemen.

De meeste organisaties maken gebruik van twee oplossingen: een datawarehouse en een data lake. Beide opties zijn geschikt voor verschillende doeleinden en hebben voor- en nadelen. Een datawarehouse is perfect geschikt om gestructureerde data – gegevens in hetzelfde format – te analyseren. Omdat de data op dezelfde wijze is gestructureerd, kan er flexibel en snel mee worden omgesprongen.

Maar een datawarehouse kan niet goed omgaan met verschillende typen data waar een moderne organisatie over beschikt. Niet alleen netjes geformatteerde databases, maar ook PDF’s, e-mails, plaatjes, audio en video moeten centraal worden opgeslagen. Hiervoor gebruiken organisaties een data lake, één grote opslagplaats voor alle verschillende data van een organisatie. Perfect voor ‘big data’-analysetechnieken zoals machine learning. Maar data lakes zijn dan weer te log voor snelle en fijnmazige business analytics.

Je raadt het al: als oplossing knoopten organisaties deze twee systemen aan elkaar. Vanuit een data lake wordt data gestructureerd en daarna verhuisd naar een data warehouse, waar de nodige analyses kunnen worden uitgevoerd.

Het werkt, maar het is duur en het is langzaam. Je verhuist constant data tussen je datawarehouse en je data lake, waardoor je in feite ook steeds kopieën van je data in beheer hebt. Daarnaast is het onderhoud van de verbindingen tussen deze twee oplossingen tijd- en kostenintensief. Kortom, hoewel deze set-up in het verleden zeer goed werkte, is het niet toekomstbestendig meer.

Efficiënter databeheer en betere samenwerking

Je snapt het misschien al: ook de combinatie van datawarehouse en -lake zorgt voor versnippering. Niet alleen dankzij het feit dat er verschillende kopieën van data rondgaan. Het zorgt ook voor problemen in samenwerking. Teams met verschillende disciplines werken in verschillende systemen. Je datawetenschappers werken in hun data lake, terwijl je business analysts in hun datawarehouse blijven.

Organisaties weten inmiddels dat ze hun sales- en marketingafdelingen beter met elkaar in contact moeten brengen. Maar dit geldt óók voor hun datateams! Net als sales en marketing bewegen de verschillende datadisciplines ook steeds dichter naar elkaar toe. In dat scenario is er een zeer reëel risico dat de complexe opzet van data lake en datawarehouse snel te duur, te langzaam en te belemmerend voor de productiviteit wordt.

Onder invloed van deze uitdagingen is het dan ook niet gek dat een nieuwe manier van centraal databeheer vorm krijgt, het zogenoemde data lakehouse. Het klinkt zo logisch: als je vaak wilt vissen, is het fijn om dichtbij een meer te wonen in plaats van twee uur rijden er vandaan. Een data lakehouse bouwt een laag op een data lake met dezelfde functionaliteiten als een datawarehouse (zoals snelheid en analysekwaliteit). Hierdoor is voor het overgrote deel van de use cases een datawarehouse overbodig, wat schaalvoordeel én kostenefficiëntie oplevert.

Klaar voor datagedreven groei

De grootste groeikans voor veel organisaties ligt nog steeds in bredere toegankelijkheid van data. Het is de sleutel tot betere samenwerking tussen teams, het identificeren van groeimogelijkheden, en snelle respons op even zo snelle marktveranderingen. In een wereld waar enorme hoeveelheden data met lichtsnelheid op je afkomen, is het dodelijk voor je concurrentievermogen als je lang moet wachten tot je iets met deze data kunt doen.

De oplossing voor deze uitdaging begint bij een gecentraliseerde oplossing voor je databeheer, die niet alleen tijds- en kostenefficiënt is, maar ook data breed beschikbaar maakt binnen je gehele organisatie.

Kom met uw praktijkervaringen op het terrein van managen en organiseren

Deel uw kennis, schrijf 3 columns of artikelen en ontvang een gratis pro-abonnement (twv €200)

Word een pro!

SCHRIJF MEE >>

Sander Griffioen
Lid sinds 2019
De strekking van het artikel is om 'twee werelden bij elkaar te brengen', in dit geval datalake en datawarehouse, en dat wordt dan 'datalakehouse'. De hypothese die hier onder zit, is dat als je '2 werelden bij elkaar brengt, het beter zal gaan'. Is dat wel zo? Mij lijkt beter dat je dergelijke zaken altijd moet toetsen aan doel en waarde. Hieruit kun je vervolgens afleiden hoe je iets zou moeten organiseren. Een voorbeeld. Het doel, en de waarde van een organisatie die geen relevantie ontleent aan data-onderzoek en data-analyse, omdat hun bedrijfsvoering dit niet nodig heeft, zal hier niets aan hebben. Terwijl een organisatie, die het doel heeft zich te onderscheiden door data-gedreven producten en diensten te ontwikkelen, en daar waarde aan ontleent, zal dit mogelijk wel zo organiseren.
Met andere woorden, de context van doel en waarde bepaalt hoe je om gaat met je data-organisatie. En daar zou een datalakehouse een uitwerking van kunnen zijn, maar hoeft niet per sé.

Meer over IT en Business