Big Data Engineer
Wat is een big data engineer?
Een big data engineer is iemand die zich bezighoudt met het bedenken, ontwerpen en ontwikkelen van technische oplossingen die het mogelijk maken grote hoeveelheden data te verzamelen, op te slaan en te analyseren. Die data zijn afkomstig uit een grote diversiteit aan interne en externe offline en online bronnen en worden bijvoorbeeld gebruikt om strategieën uit te stippelen en beleidskeuzes te maken.
Wat is big data?
‘Big’ data staat voor de enorme hoeveelheid aan gegevens waarmee een bedrijf of organisatie dagelijks, wekelijks, maandelijks en/of jaarlijks te maken krijgt en die voor het bedrijf belangrijk zijn om mee te nemen in hun beleids- en bedrijfsplannen. Denk bijvoorbeeld aan gegevens over het koopgedrag van consumenten of surfgedrag van websitebezoekers dat via cookies wordt vastgelegd. Door nieuwe en geavanceerdere technologieën, neemt de hoeveelheid data alleen maar toe.
Toch is het moeilijk een eenduidige definitie van big data te geven, omdat er verschillende meningen bestaan over wat er nu precies onder valt. Wat big data in elk geval gemeen hebben, is naast de enorme hoeveelheid, de grote snelheid waarmee gegevens verwerkt worden en dat ze uit veel diverse bronnen komen.
Daarom worden big data ook wel eens aangeduid met drie v’s:
- Volume: staat voor het grote volume, de grote hoeveelheid aan data.
- Velocity: de snelheid waarmee en de veranderlijkheid van de gegevens die binnenkomen. Real time speelt een steeds grotere rol bij big data.
- Variety: big data komen uit een grote verscheidenheid aan bronnen, zoals webtekst, afbeeldingen, video’s, documenten, interacties etc.
Big datasets zijn te groot in omvang of te complex om ze met reguliere software te verwerken. Om een hoofd te bieden aan dat ‘probleem’, is de functie van big data engineer ontstaan.
Typen data: gestructureerde en ongestructureerde data
Er zijn verschillende typen data. Denk bijvoorbeeld aan transactiedata, sensorische data, gegevens uit CRM-systemen, GPS-gegevens en data uit social media. Er wordt onderscheid gemaakt tussen gestructureerde (structured) en ongestructureerde (unstructured) big data.
Verreweg de meeste data zijn ongestructureerd. Deze data kun je zien als kwalitatief en zijn - in tegenstelling tot gestructureerde data - niet te vatten in formats of cijfers. Voorbeelden van ongestructureerde data zijn gegevens uit interacties op social media, opmerkingenvelden op websites, documenten of data uit video’s en afbeeldingen.
Gestructureerde data zijn kwantitatieve gegevens die eenvoudig te verwerken zijn en opgeslagen kunnen worden in databases, zoals geboortedatum, geslacht, woonplaats etc.
Wat doet een big data engineer?
Een big data engineer bouwt en ontwikkelt infrastructuren om grote datasets te verwerken. Hij of zij operationaliseert algoritmes in de bedrijfsprocessen en zorgt dat data-analisten met datastromen aan de slag kunnen.
Onder het takenpakket van een big data engineer kunnen de volgende werkzaamheden vallen:
- Streaming- en batchprocessen ontwikkelen om data te verzamelen
- Meebouwen aan datalandschap en cloudoplossingen en microservices zoals AWS
- Beheren en optimaliseren van datastromen en datawarehouse
- Creëren van real time reports / dashboards
- Combineren van interne en externe bronnen
- Implementeren van machine learning-modellen
- Infrastructuur ontwerpen voor big data lakes (opslag van ongestructureerde datastromen)
- Onderhouden en optimaliseren van de (cloud) infrastructuur
Een big data engineer heeft kennis van en ervaring met een of meer van de volgende systemen, tools en technieken:
- Dataverwerkingsprocessen: SQL (Structured Query Language) en ETL (Extract, Transform, Load)
- Cloud computing: AWS en Azure
- Programmeertalen: Python, Scala, Java, R
- Datasystemen: Spark, Hadoop, MongoDB, Redis, Cassandra
Waar werken big data engineers?
Big data engineers kunnen in verschillende branches en bij diverse type organisaties aan de slag. Meer en meer organisaties werken namelijk met big data, omdat het belang ervan steeds groter wordt.
Je kunt als big data engineer bijvoorbeeld werken bij overheidsorganisaties, multinationals, mediabedrijven, in de detailhandel, bij verzekeringsmaatschappijen of de politie. Grote bedrijven hebben vaak eigen big data engineers in dienst. Het kan ook zijn dat je als big data engineer via een consultancybureau werkt. Dit doe je dan op projectbasis voor verschillende klanten.
Big data engineers werken veel samen met andere technisch specialisten, zoals data-analisten, data scientists, software engineers en developers. Verder kunnen ze te maken krijgen met operation engineers en lead data engineers.
Hoe word je big data engineer?
Om big data engineer te worden volg je een opleiding in de richting van IT, of een andere technische studie waarbij je leert te werken met grote databestanden. Voorbeelden van opleidingen die je kunt volgen zijn:
- Computer Science
- Software engineering
- Informatica
- Applied Data Science
Deze opleidingen zijn er zowel op hbo- als op universitair niveau.