Generic
Controle in de data jungle
31/08/2017 | Written by: Ron Van Der Starre
Categorized: Generic
Share this post:
Controle in de data jungle: hoe je een Data Lake inzet om het maximale uit je organisatie te halen
De discussie over wel of geen Data Lake is niet nieuw. In snel veranderende markten zijn bedrijven genoodzaakt om complexiteit uit hun organisatie te snijden ter bevordering van de operationele efficiënte. Steeds meer bedrijven omarmen een systematische benadering voor data opslag. Waar data eerder in verschillende warehouses, datamarts of bijvoorbeeld cubes werden bewaard, werken we nu toe naar één flexibele dataomgeving die toegankelijk is en eenvoudig in gebruik. Governance by Design is hier het onderscheidende kenmerk.
Daarnaast slaan we niet alleen meer de traditionele data op, maar ook nieuwe vormen van data die vaak semi-dan wel volledig ongestructureerd zijn.
Echter gaat het nog regelmatig mis bij het betrouwbaar opslaan en inzetten van data: gefragmenteerde data, veiligheidsrisico’s en nieuwe wet- en regelgeving spelen hierbij een grote rol. Met de explosieve groei van data en de wens van organisaties om zich hiermee te differentiëren, wordt ook de roep vanuit het bedrijfsleven voor datatransparantie steeds luider; er is een sterke behoefte om data-gedreven beslissingen te maken, te kunnen verklaren en nieuwe inzichten terug te herleiden naar de bron. Een Data Lake kan het vertrouwen in data herstellen en helpen om data beter te ontsluiten binnen de organisatie, mits het goed ingericht, beveiligt, beheert en gebruikt wordt.
Transformeren rond het Data Lake
De eerste stap bij de transformatie naar een data-gedreven organisatie is het beschrijven van alle beschikbare data in metadata. Wie is de eigenaar en wat is de definitie van een bepaalde zakelijke term? Onderlinge relaties en gevoeligheid van data dienen ook te worden aangeduid. Alleen door data duidelijk en consistent te beschrijven, begrijpen mensen wat het betekent en kunnen ze er op de juiste manier gebruik van maken. Dit schept vertrouwen in data en versnelt doorlooptijden. Ieder relevant stukje data dient te zijn voorzien van een eenduidige beschrijving voordat het in het Data Lake wordt opgeslagen.
De volgende stap is het vastleggen van gebruik van data. Ons gedrag ten aanzien van data moet in hetzelfde tempo mee veranderen als de data Architectuur. Maar dit gaat niet vanzelf; duidelijke gebruikersrichtlijnen zijn noodzakelijk. Je kan het vergelijken met je dagelijkse autorit: je rijdt iedere ochtend zonder veel moeite van huis naar werk. Borden wijzen je in de juiste richting en geven de maximaal snelheid aan. Je rijbewijs dient als bevestiging dat je over de juiste kennis beschikt om auto te rijden – je weet bijv. wat een rood of groen stoplicht betekent. Bij een overtreding kan ik aangehouden worden door de politie of krijg ik een bekeuring. Juist bij die laatste twee – het toepassen van data en naleven van het juiste gebruik, blijft het vaak steken.
Goede doorstroom van data
De laatste stap naar een data-gedreven organisaties heeft alles te maken met hoe data door de organisatie stroomt– ook wel lineage genoemd. Het gaat er hierbij om dat informatie die bijvoorbeeld is gebruikt voor een beslissing altijd teruggeleid kan worden naar de herkomst.
Het draagt bij aan ons vertrouwen in besluitvorming op basis van data. Belangrijk ook met de aankomende GDPR/AVG of PSD2 wetgeving, waarbij bedrijven het risico lopen op sancties bij het niet naleven van bijvoorbeeld de privacy rondom persoonsgegevens.
Crap-in is crap-out
Het aanleggen van een Data Lake is een complex proces. Techneuten beginnen er vaak aan zonder goed na te denken over de impact en consequenties. Zo raak je vast en zeker de weg kwijt. Daarnaast is onderhoud bewerkelijk: crap-in is crap-out. Het maakt niet uit of je aan het wekelijkse omzetoverzicht werkt of aan een complex fraude oplossing, de data in je Data Lake moet altijd betrouwbaar en veilig zijn. Slimme software tools, zoals bijvoorbeeld Cognos helpen daarbij. Ze geven je eenvoudig toegang en zorgen ervoor dat je alleen die data ziet waarvoor jij geautoriseerd bent. Daarnaast ben je altijd ‘in-copy’ aan het werken; niemand heeft direct toegang tot de originele datasets. Zo voorkom je dat deze worden aangetast en tegelijkertijd is het voor gebruikers niet nodig om de achterliggende technologie te begrijpen. Als je bijvoorbeeld alle banktransacties van vandaag nodig heb voor een bepaalde analyse, werk je dus met een subset van de ruwe data. Nieuwe data kan ook weer toegevoegd worden aan het Data Lake, mits het op de juiste manier beschreven is en het gebruik ervan goed is gedefinieerd.
Het is belangrijk om eerst goed na te denken over de gewenste data-architectuur van je organisatie voordat je begint. Voorwaarden hiervoor zijn het vastleggen en beschrijven van data en datagebruik. Alleen door deze twee stappen goed op te zetten, kan optimaal gebruik gemaakt worden van data door een hele organisatie. Het automatiseert en simplificeert processen die voorheen versnippert en complex waren en werkt snelle innovatie en besluitvorming in de hand. De Data Lake Architectuur is nog steeds volop in beweging en wordt iedere dag meer volwassen. Zo werken we steeds vaker samen met klanten en partners aan de toevoeging van Cloud, Open Standaarden en Cognitieve mogelijkheden aan de Data Lake Architectuur. Door opgedane ervaring bij o.a. banken en overheidsinstanties, maar ook doordat IBM zelf experimenteert en leert van zijn eigen Data Lake bijvoorbeeld bij het verbeteren van onze eigen logistiek, kunnen we klanten nog beter adviseren.
De toekomst van Data Lakes ziet er dan ook rooskleurig uit als je de bovengenoemden stappen niet evolutionair, maar rigoureus doorvoert in je organisatie; het helpt je nu bij het organiseren van de toekomst.
Raadpleeg voor meer informatie over dit onderwerp ook onderstaande bronnen:
- IBM & data governance
- Redguide: Governing and Managing Big Data for Analytics and Decision Makers
- Redbook: Designing and Operating a Data Reservoir
- Blog: InsightOut: The case for open metadata and governance
- Blog: Charting-data-lake-rethinking-data-models-data-lakes
Analytics Portfolio & Information Architect | IBM
Is regulation enabling or hindering innovation in the financial services industry?
Anne Leslie, Cloud Risk & Controls Leader Europe, IBM Cloud for Financial Services Europe’s financial services sector is in the throes of wide scale digital transformation – a transition being accelerated by the growing adoption of digital solutions and services to help keep up with the demands of digitally savvy consumers. While there can be […]
The Digital Operational Resilience Act for Financial Services: Harmonised rules, broader scope of application
The Digital Operational Resilience Act – what and why As part of the European Commission’s Digital Finance Package, the new Digital Operational Resilience Act, or in short DORA, will come into force in the coming period. The aim of DORA is to establish uniform requirements across the EU that improve the cybersecurity and operational resilience […]
Banking on empathy
Suppose you’re owning a small boutique wine shop and have gone through two difficult years because of the Covid-19 pandemic. As the pandemic seems to be on its way back, it is time to revitalize the shop. And this causes direct a huge challenge: the wine stock needs to be replenished but you have used […]