Van modellen tot pijplijnen: de reis van een data engineer

John Hammerschlag
Data Engineer bij Agilytic

Nu gegevens de belangrijkste pijler van moderne bedrijven worden, zijn er veel professionals die hun rol in de gegevenswereld heroverwegen. John Hammerschlag van Agilytic is een van hen. John werd aanvankelijk aangetrokken tot datawetenschap vanwege de sensatie van het ontdekken, maar heeft sindsdien zijn focus verlegd naar data-engineering - een pad dat hem, zoals hij het zelf zegt, in staat stelt 'de weg aan te leggen voordat de reis begint'. 

Vaak hebben teams die voornamelijk bestaan uit datawetenschappers moeite om vooruitgang te boeken door een gebrek aan fundamentele data-engineering, iets wat essentieel is voor langdurig succes in datawetenschap. In dit openhartige interview deelt John hoe zijn nieuwsgierigheid evolueerde van het analyseren van data naar het structureren ervan, waarbij hij de verrassende uitdagingen en beloningen van een data engineering rol onthult. Zijn reis weerspiegelt een groeiende trend in het vakgebied, waar het begrijpen van de fundamenten van data net zo belangrijk is als het interpreteren van de inzichten." 

Wat trok je in eerste instantie aan in data science en hoe is je interesse geëvolueerd naar data engineering?

Ik was aanvankelijk gefascineerd door machine learning en vond het geweldig om met modellen te werken om inzichten uit gegevens te halen. Die nieuwsgierigheid is er nog steeds. Ik werk zelfs aan een aantal persoonlijke machine learning projecten. Maar na verloop van tijd realiseerde ik me dat inzichten slechts zo goed zijn als de gegevens waarop ze zijn gebaseerd. Veel bedrijven ontdekken dit op de harde manier - zonder een sterke datafundament loopt datawetenschappelijk werk vaak vast of is het onbetrouwbaar.

Ik raakte geïnteresseerd in de hele datavoorbereiding, het ruggengraatwerk dat ervoor zorgt dat de gebruikte gegevens van hoge kwaliteit zijn. Dit besef leidde me naar data engineering, waar ik me richt op het creëren van een betrouwbaar dataplatform. Ik geniet van het idee om data echt bruikbaar te maken, bijna als het bouwen van de fundering voordat je begint met het toevoegen van de lagen van analyse. Bovendien sluit deze verschuiving nauw aan bij wat we zien bij verschillende projecten op Agilytic: datawetenschappers moeten vaak overstappen op data-engineering om zinvolle vooruitgang te boeken.

Hoe verschilt de mindset of aanpak van het werk tussen data science en data engineering?

Dit verschil in reikwijdte is waar veel organisaties vastlopen - ze hebben datawetenschappers die zich richten op specifieke resultaten, maar zonder het fundamentele ingenieurswerk schalen hun inspanningen niet. Datawetenschap is erg projectmatig. Je begint met een dataset en werkt naar een specifiek doel toe, zoals het voorspellen van een uitkomst.

Bij data engineering is de aanpak veel breder. Je kijkt niet alleen naar het doel van één project; je ontwerpt een pijplijn die meerdere use cases en afdelingen ondersteunt. Het gaat erom vooruit te denken, te anticiperen op toekomstige behoeften, de hele gegevensstroom van bron tot gebruik te begrijpen en ervoor te zorgen dat de infrastructuur dat allemaal soepel kan verwerken.

Je moet dus bijna het hele data-ecosysteem in één oogopslag zien.

Wat veranderde er aan je dagelijkse taken toen je overstapte naar data-engineering?

Mijn werk verschoof aanzienlijk. Toen ik in data science werkte, besteedde ik veel tijd aan het modelleren en bouwen van algoritmen. In data engineering gaat het meer om het bouwen en onderhouden van pipelines. Ik breng nu bijvoorbeeld veel tijd door in PySpark in plaats van in de Python-bibliotheken die doorgaans worden gebruikt voor modellering. Mijn taken bestaan uit het opzetten van gegevensbronnen, het standaardiseren van binnenkomende gegevens, het samenvoegen ervan op manieren die zinvol zijn voor elke afdeling en ervoor zorgen dat de pijplijn soepel loopt. Het einddoel is ervoor te zorgen dat iedereen schone en betrouwbare gegevens heeft om mee te werken.

Hoe zit het met de vaardigheden? Vereiste de rolwisseling nieuwe vaardigheden?

Absoluut. Hoewel ik nog steeds Python gebruik, is het nu meer gericht op PySpark voor gedistribueerde gegevensverwerking. SQL is ook essentieel, vooral als je werkt met gestructureerde gegevens in grote datasets.

Bij data-engineering komt ook veel cloudwerk kijken, zoals het opzetten van opslag, computerbronnen en het beheren van verbindingen tussen verschillende gegevensbronnen. Het is technisch op een andere manier - minder gericht op de nauwkeurigheid van modellen en meer op het optimaliseren van gegevensverwerking en -opslag.  

Al deze vaardigheden zijn cruciaal voor organisaties die schaalbare systemen moeten bouwen, maar deze specifieke expertise missen.

Waren er misvattingen of verrassingen bij de overgang van data science naar data engineering?

De echte verrassing voor velen is dat data-engineering een kritisch fundament voor de lange termijn is, geen snelle oplossing. Een misvatting die veel mensen hebben is dat data-engineering direct leidt tot het bouwen van modellen. Data-engineers leggen de basis. We zorgen ervoor dat de gegevens klaar en toegankelijk zijn, maar we zijn meestal niet degenen die er modellen mee bouwen. Dat is meestal de taak van datawetenschappers.

Veel van onze klanten hebben vergelijkbare misvattingen. Ze denken vaak dat data engineering hun data science output direct zal versnellen, maar het gaat meer om het creëren van de infrastructuur om die projecten duurzaam en schaalbaar te maken. Klanten realiseren zich al snel het belang van data engineering wanneer ze te maken krijgen met vertragingen en inefficiënties bij het implementeren van modellen zonder data engineering.

Hoe verloopt de samenwerking tussen de datawetenschappers en data engineers van je team?

Samenwerking is de centrale pijler waarop we al onze projecten hebben gebouwd. We zijn behoorlijk geïntegreerd, dus er is altijd open communicatie als iemand inzicht nodig heeft in een platform of een onderwerp op het gebied van data-engineering. En als ik een vraag heb over datamodellering, is er altijd iemand die ik kan raadplegen. We hebben speciale kanalen voor vragen en discussie, zodat niemand alleen met een probleem hoeft te worstelen. Dit heen en weer gepraat helpt ons om elkaars behoeften te begrijpen - datawetenschappers kunnen ons bijvoorbeeld vertellen wat voor dataformaten ze nodig hebben, zodat we niet op het laatste moment nog dingen moeten aanpassen.

Voor klanten kan dit soort nauwe samenwerking tussen datawetenschappers en engineers transformerend werken. Zonder goede samenwerking krijgen ze vaak te maken met herhaaldelijk herwerk en inefficiëntie. We hebben uit de eerste hand gezien hoe het overbruggen van deze kloof dataworkflows kan stroomlijnen en projectresultaten kan verbeteren.

Welke unieke waarde hebben datawetenschappers voor een data-engineeringteam? 

Ze brengen perspectief op de uiteindelijke output - het einddoel waar de gegevens voor gebruikt gaan worden. Deze input is voor ons van cruciaal belang omdat het ons helpt om de gegevens zo te structureren dat ze gemakkelijk te gebruiken zijn voor modellering. Zonder hun inzichten lopen we het risico gegevens te leveren die niet helemaal zijn wat ze nodig hebben, wat leidt tot inefficiëntie en extra werk. Hun inzicht in de betekenis en het doel van de gegevens voegt een laag bedrijfscontext toe die onze opzet stuurt.

Heb je een project waar je bijzonder trots op bent? 

Ik zou zeggen dat mijn eerste data-engineeringproject een sterke stempel op me heeft gedrukt. Het ging om het maken van een dataplatform in Azure en het bouwen van een kleine webapp in Python, zodat de klant direct kon communiceren met data en deze kon opschonen. 

Uiteindelijk hebben we zelfs een aantal voorspellingsmodellen geïmplementeerd met Prophet en Darts. Dat project liet me alles doen, van het opzetten van het dataplatform tot het implementeren van het model. Het was de perfecte manier om data engineering en data science vaardigheden te combineren.

Welk advies zou je iemand geven die dezelfde overstap wil maken? 

Probeer altijd de bredere impact van je werk te begrijpen.

Verstrikt raken in de technische kant is heel gemakkelijk, maar de einddoelen kennen - de zakelijke behoeften en hoe klanten de gegevens zullen gebruiken - kan een enorm verschil maken. Veel datawetenschappers en zelfs bedrijven raken verstrikt in technische details, maar missen het grote plaatje van hoe data-engineering schaalbare inzichten ondersteunt. Vaak zijn de eenvoudigste oplossingen - die zorgen voor kwaliteit en schaalbaarheid - het meest effectief. En vergeet niet dat het bouwen van een solide datafundament in het begin misschien langzamer lijkt, maar het versnelt het succes van datawetenschap op de lange termijn.

Vorige
Vorige

1% certificering - terugblik op ons derde jaar

Volgende
Volgende

Na de hype: in welke soorten intelligentie moet je investeren?