Het gebied van data engineering evolueert snel. Dit artikel beschrijft drie belangrijke trends die ik de komende jaren prominent zie worden.
De rol van een data engineer bestond tien jaar geleden bijna niet. Maar de behoefte aan dit specifieke soort software engineer is gegroeid. Naarmate het vakgebied volwassener werd, evolueerde de rol.
De verantwoordelijkheden van een data engineer verschillen van bedrijf tot bedrijf en de rol evolueert niet overal even snel. Maar ik zie de rol in drie aspecten veranderen:
Laten we de details bekijken.
Data ingenieurs zullen massaal gebruik maken van cloud technologieën en SaaS-producten
Tien jaar geleden vertrouwden bedrijven op on-premise infrastructuur voor de opslag van hun data. Dit is de reden waarom de eerste grote data technologieën werden gebouwd voor on-premise omgevingen. Tijdens dit tijdperk besteedden data engineers veel tijd aan het afstemmen van de configuratie van hun machines ten koste van het creëren van bedrijfswaarde.
Dan, cloud providers kwamen met de belofte om diensten te leveren die zij voor u beheren. Zo kunt u zich richten op uw zakelijke behoeften. Dit is een game-changer geweest.
Nu hebben cloud providers en technische bedrijven zoals Snowflake en Databricks grote data gemakkelijk gemaakt. Het data ecosysteem is ook volwassener geworden. Nieuwe data startups ontstonden op specifieke gebieden zoals data kwaliteit, data governance, of data ingestion. De integratie tussen deze producten is naadloos.

De tijd dat data-technici één hulpmiddel van de Apache Foundation hadden voor hun specifieke behoefte, is al lang voorbij. Ze hebben een ontelbaar aantal tools om hetzelfde te doen. Tegenwoordig hebben data engineers de verantwoordelijkheid om de beste tools te kiezen. Daarom moeten ze een goede kennis hebben van het ecosysteem en weten hoe ze benchmarks moeten uitvoeren en relevante beslissingscriteria moeten kiezen.
Het juiste gereedschap voor de juiste taak kiezen is niet eenvoudig. Maar tools integreren tot een consistente data platform is ook een uitdaging. Sommige data engineers maken al gebruik van infrastructure as code om deze bouwstenen samen te stellen en de implementatie van infrastructuur te automatiseren. Ik zie dit een verplichte vaardigheid worden.
Data technici besteden minder tijd aan coderen en meer tijd aan bewaking
De tijd dat data engineers complexe ETL-pijplijnen ontwikkelden in Scala en Spark lijkt voorbij.
Voor het extractiegedeelte kunt u nu technologieën zoals Airbyte gebruiken om extractietaken van veel verschillende bronnen te plannen. Het laden is niet langer een pijnpunt. Snowflake heeft het bijvoorbeeld gemakkelijk gemaakt om een bestand vanuit blob-opslag in een tabel te laden met een SQL-commando.
Wat de transformatiestap betreft, bracht dbt een nieuw paradigma waarin u transformeer uw data in uw data magazijn met SQL als primaire taal. De verschuiving van ETL naar ELT is voltooid.
Een workflow implementeren is dus nog nooit zo eenvoudig geweest en we kunnen zeggen hartelijk dank naar de moderne data stack. De moderne data stack is een verzameling technologieën die tot doel hebben de complexiteit van data workflows te verminderen en de snelheid van data teams te verhogen. Dankzij de moderne data stack kunnen data analisten nu autonoom werken. Ze hebben niet langer de hulp van data engineers nodig om ruwe data te verzamelen en te transformeren. Maar betekent dit dat data ingenieurs niet langer nodig zijn in data teams? 😟
Ik ben misschien bevooroordeeld, maar ik denk dat het antwoord NEE is.

Mijn gok is dat de de rol van data engineer zal evolueren naar een meer ops-georiënteerde rol. De volgende generatie data ingenieurs zal zich richten op het verbeteren van de betrouwbaarheid van data in het hele bedrijf. Hun verantwoordelijkheden zullen zijn:
Net als wat we een paar jaar geleden zagen bij softwareontwikkeling met de opkomst van software reliability engineers (SRE), zien we misschien een soortgelijke trend in de data-wereld. Er komt een nieuwe functietitel: de data-betrouwbaarheidsingenieur. Zij zullen verantwoordelijk zijn voor ervoor zorgen dat data op tijd beschikbaar en betrouwbaar is.
We zullen zien dat meer data engineers verantwoordelijk zijn voor het definiëren van Service Level Indicators (SLI) en Service Level Objectives (SLO). Ze zullen ook deelnemen aan oproeprondes en reageren op incidenten.
Het dagelijkse werk van een data engineer zal evolueren, maar de positie binnen de organisatie zal ook veranderen.
Data ingenieurs wisselen van feature teams naar foundation teams
Historisch gezien waren data engineers lid van feature teams. Het probleem is dat dit leidde tot data silo's en een gebrek aan globale consistentie. Daarom begonnen bedrijven zich aan te passen door transversale teams te creëren.
De volgende generatie data ingenieurs zal niet werken aan een bepaald data product. Hun doel zal zijn om Productteams productiever maken. Om dit te kunnen doen, zijn ze verantwoordelijk voor het leveren van de juiste set hulpmiddelen. Dit is waar het data mesh-paradigma om draait: gedistribueerd eigendom met een funderingsteam dat alle benodigde hulpmiddelen biedt om data producten te bouwen.
Dus de volgende keer dat u een dashboard voor financieel reports moet ontwikkelen, heeft u geen feature team nodig dat bestaat uit een product owner, een data analist en een data engineer. De data analist zal autonoom zijn en gebruik maken van de tools die het foundation team heeft ingezet, zodat hij snel de benodigde data kan extraheren en vervolgens KPI's kan berekenen op deze ruwe data.
Conclusie
Kijken naar de kristallen schaal is een moeilijke oefening. Er is een beetje onzekerheid verbonden aan de bovenstaande meningen. Maar ik hoop dat dit artikel u ook aan het denken zet over de toekomst van de rol en ik lees graag uw gedachten in de reacties!
Tijd om mijn kristallen schaal even opzij te zetten en u uit te nodigen om onze openstaande posities. Artefact is de juiste plaats om na te denken over de toekomst van ons vakgebied.

BLOG







