Een datadilemma: Databeheer in multi-cloudomgevingen

Hoe voorkom je dat het je data analytics in de weg zit?

31323

Columns

Organisaties werken doorgaans niet meer op één cloud. Voor ieder type werk kiezen ze het platform waar ze de beste resultaten mee kunnen behalen. Het CRM van de commerciële teams, het boekhoudsysteem van finance en het HR-systeem kunnen allemaal op verschillende clouds draaien. Hoe voorkom je dat dit een beheernachtmerrie wordt?

Multi-cloud biedt flexibiliteit en schaalbaarheid terwijl je vendor lock-in voorkomt. Maar het maakt de digitale infrastructuur complexer en versnipperd. Dit kan productiviteit en bedrijfsgroei juist tegenwerken, met name wanneer data (tegenwoordig onmisbaar voor groei!) niet makkelijk binnen de hele organisatie toegankelijk is.

Organisaties lijken dus voor een dilemma te staan. Gaan ze voor de flexibiliteit en schaalbaarheid, of voor uniforme en consistente data? Ik zeg ‘lijken’, want hoewel cloudtechnologie dit dilemma heeft gecreëerd, biedt dezelfde technologie ook een oplossing.

Behoud de kwaliteit van je data

Machine learning (ML) is een prioriteit voor veel organisaties die willen groeien in het cloudtijdperk. Maar ML-modellen zijn slechts zo goed als de data waarvan ze leren. Een hoge norm voor gegevenskwaliteit en -integriteit in een multi-cloudomgeving is dus essentieel.

Hoe doe je dat in een multi-cloudorganisatie? Het begint met het juiste beleid, zodat je sleutelpersoneel verantwoordelijk kan stellen voor de kwaliteit van specifieke datasets, welke teams toegang hebben tot deze datasets en welke applicaties er gebruik van moeten maken. Hierdoor kun je kwaliteitsproblemen inzichtelijk maken en verantwoording in het proces inbouwen.

Vervolgens ben je afhankelijk van de juiste technologie. Want gezien de toenemende hoeveelheid data die elke dag wordt geproduceerd, bepaalt de manier waarop data wordt opgeslagen wat je er later mee kunt doen.

Complexiteit is de vijand

Grotere organisaties werken doorgaans met een complexe data-architectuur waarin ze datawarehouses en data lakes combineren. Dit leidt tot een groot aantal verbindingen tussen systemen en versnippering van data. Vervolgens moeten deze organisaties ontzettend veel tijd en geld besteden aan het onderhoud van verbindingen en systemen - die ze beter kunnen besteden aan data-analyse en -manipulatie. Eindgebruikers beschikken tot slot niet over een single source of truth, omdat de data hier en daar, links en rechts is opgeslagen.

Dit probleem is geleidelijk ontstaan. Zo’n veertig jaar geleden begonnen organisaties datawarehouses te gebruiken in plaats van relationele databases om business intelligence mogelijk te maken. Vervolgens kwamen data lakes ongeveer tien jaar geleden om de hoek kijken, omdat data warehouses niet overweg konden met ruwe, video-, audio- en beelddata of zeer grote gestructureerde datasets.

Data lakes in de cloud hebben een onbeperkte schaal tegen lage kosten en ondersteunen de use cases voor data science en ML die organisaties tegenwoordig prioriteren. Maar dat betekent niet dat alle traditionele use cases voor analytics zijn verdwenen. Als gevolg beheren klanten over het algemeen twee kopieën van hun data (waarvoor ze moeten betalen) en kost het hen ontzettend veel tijd om deze data gesynct te houden.

Multi-cloudomgevingen doen hier nog een schepje bovenop: al het bovenstaande werk en onderhoud moet op verschillende cloudplatforms worden herhaald. En die situatie leidt tot één grote warboel.

De complexiteit van met elkaar verbonden data lakes en datawarehouses is niet wenselijk. De weg terug naar efficiëntie en productiviteit gaat dan ook via de vereenvoudiging en consolidatie van de data-architectuur. Geavanceerde analytics en machine learning op ongestructureerde en grootschalige data zijn tegenwoordig een van de grootste strategische prioriteiten voor ondernemingen.

Het data lake zou dan ook het centrum van de infrastructuur moeten vormen. Maar dat kan alleen door een laag op het data lake te bouwen die traditionele use cases ondersteunt. Dán heb je het beste van twee werelden: een data lakehouse.

De rol van open source

Open source software speelt een essentiële rol om een data lakehouse op te zetten in een multi-cloudomgeving. Een open source opslaglaag zorgt voor een consistente behandeling data en maakt een effectieve multi-cloudstrategie mogelijk. Het is een cruciaal onderdeel van het behoud van kwaliteit en integriteit en het hebben van die laag in open source maakt portabiliteit mogelijk.

Waarom is het zo essentieel? Omdat alleen met open-sourcetechnologieën en data-indelingen de voordelen van multi-cloud echt tot hun recht komen. De mogelijkheid om configuraties te automatiseren, security- en governancebeleid af te dwingen en data in open formats in verschillende clouds te repliceren, is dé manier om vendor lock-in te voorkomen en de keuze tussen cloud providers mogelijk te maken.

En security, dan?

Organisaties moeten bedrijfskritische gegevens gebruiken om ML-toepassingen te bouwen. Beveiliging is dan ook onmisbaar. De correcte implementatie en het onderhoud van beveiligingsbeleid op één cloud is al moeilijk genoeg, laat staan op multi-cloud.

In een goede multi-cloudstrategie zou je belangrijke beveiligingsfuncties niet cloud-agnostisch moeten proberen te maken. In plaats daarvan is het veel beter om gebruik te maken van de specifieke beveiligingsfuncties die iedere provider speciaal voor hun cloud heeft gebouwd. Daarboven moet je vervolgens een framework implementeren waarmee de beveiligingsmaatregelen van cloudproviders worden afgestemd met je eigen beveiligings- en governancebeleid. Een bijkomend voordeel van zo’n framework is dat ontwikkelaars en datawetenschappers geen cloud-specifieke code hoeven te schrijven.

In het geval van data analytics en ML zou een beheerder middels dit framework bijvoorbeeld kunnen bepalen welke gebruikers toegang hebben tot PII-data, clusters kunnen maken om data te verwerken, ETL-taken kunnen uitvoeren, of (beperkte) toegang hebben tot productie-omgevingen.

De toekomst brengt meer multi-cloud

Multi-cloudinfrastructuren zullen alleen maar groter worden. Organisaties moeten er dus snel voor zorgen dat ze hun datakwaliteit in alle clouds kunnen behouden mét sterke governance en beveiliging.

Een uniform platform voor data analytics lost deze uitdagingen op door alle gebruikers en data samen te brengen in een open, eenvoudige, schaalbare en veilige service die gebruikmaakt van de native functies van cloudproviders. En door tot slot slim gebruik te maken van open source-componenten, blijf je ook in je keuze van provider altijd flexibel.