Zo houd je je ‘data lake’ schoon

Think Progress-team

12/02/2018

Niet voor niets lenen organisatiebrede databeheerplatforms zich goed voor watermetaforen. Wanneer de hoeveelheid informatie die je bedrijf verzamelt en opslaat zulke grote proporties aanneemt dat die ontoegankelijk wordt, stagneert de instroming van gegevens. En wanneer die informatie nergens naartoe kan, verandert je datameer in een datamoeras.

De snelheid en eenvoud waarmee een datameer wordt gecreëerd, is deels het probleem. Bij veel organisaties schieten ze als paddenstoelen uit de grond, vaak zonder duidelijk onderhoudsplan. Er zijn veel gegevens beschikbaar, maar slechts weinigen weten die te bereiken – laat staan gebruiken. Het resultaat? Om maar in de beeldspraak te blijven: een modderpoel van ongeordende informatie die niet rechtstreeks kan worden geïntegreerd of geïnterpreteerd.

Ken Tsai, hoofd van cloudplatform en databeheer bij SAP, vertelde TechRepublic: “We noemen dit fenomeen ‘datadissonantie’, omdat de data niet zonder voorbereiding harmonisch en compatibel gemaakt kan worden met andere typen data.”

Omdat veel data in ruwe vorm binnenstromen, zijn er geen nuttige metadata die bijvoorbeeld aangeven wanneer iets voor het laatst gewijzigd of geopend is. Dat maakt het lastig om gegevens te herleiden. Je kunt het vergelijken met het zoeken naar een specifieke speld in een speldenberg.

Bovendien gaat het om een enorme hoeveelheid. Bedrijven hebben de neiging om voor de zekerheid elk stukje data te bewaren – voor het geval er een boekenonderzoek komt of de data in de toekomst bruikbaar zijn voor een of andere analyse. Zonder zinvolle integratie nemen gegeven echter alleen maar plaats in beslag op de servers.

Wat kan je bedrijf eraan doen om te zorgen dat zijn data lake een heldere vergaarbak van bruikbare informatie wordt?

1. Begin met een doel

Wat is het bedrijfsprobleem dat je probeert op te lossen? Zodra je dit weet, wordt het eenvoudiger om te achterhalen welke gegevens je moet verzamelen en hoe je deze moet interpreteren. Door eerst een doel voor ogen te hebben, kun je de informatie die je verzamelt beter contextualiseren. Zo verzamel je ook alleen de informatie die je nodig hebt.

2. Verminder de hoeveelheid gegevens die je verzamelt

Het is zo goedkoop om informatie te vergaren dat het in wezen gratis is. Daardoor slaan bedrijven al snel te veel op. Ook denkt iemand al snel: “Dat zoek ik later wel uit”, zoals we allemaal doen bij het opbergen van spullen.

Door vooraf het probleem duidelijk in kaart te brengen, kun je specifieke gegevenssets verzamelen en de overweldigende stortvloed omzetten in een beheersbare stroom.

3. Automatiseer de datavangst

Zodra je op een rijtje hebt gezet welke data je nodig hebt, moet je uitzoeken hoe je deze verder gaat verwerken. Het is de moeite waard om dat proces te automatiseren. Als je gegevenssets de juiste metagegevens krijgen toegewezen, kun je via kunstmatige intelligentie je data filteren en resultaten ophalen. Vooral machinaal leren is een uitstekende manier om de gegevens in hapklare brokken te verpakken, zodat je team die kan analyseren en interpreteren.

Het is niet erg om uiterst selectief te zijn bij het verzamelen van informatie. Sterker nog, dat is van groot belang als je er iets waardevols uit wilt destilleren.

DIT VINDT U MISSCHIEN OOK INTERESSANT

Het kantoor in 2020

Wat organisaties van de 21e eeuw moeten weten.