De editie van dit jaar vond plaats in New Orleans. En net als bij de vorige edities leerden we veel over het landschap van analytics engineering.
Het evenement georganiseerd door dbt was terug dit jaar. Je kon het fysiek bijwonen in New Orleans of de gesprekken online bekijken.
Omdat dbt steeds meer wordt toegepast, verwachtten we veel van deze conferentie. Er werden sessies over verschillende onderwerpen voorgesteld die niet beperkt waren tot het gebruik van dbt. Er waren bijvoorbeeld sessies over loopbaantrajecten voor data teams.
Zonder verder oponthoud, hier zijn volgens mij de belangrijkste lessen van deze editie:
Laten we eens in de details duiken.
Python models, finally!
Het was zeker de meest verwachte functie. Je kunt nu Python-modellen uitvoeren. Het gedrag lijkt erg op dat van SQL-modellen.
Deze functie is baanbrekend. Ik denk dat we vaak hetzelfde probleem hebben met een workflow die we niet end-to-end kunnen uitvoeren vanwege een of twee bewerkingen die erg lastig zijn om uit te voeren in SQL. Dit is pijnlijk omdat we een extra laag nodig hebben. We willen dit niet heen en weer beheren tussen dbt en een ander component.
Dit was in het bijzonder het geval voor geavanceerde statistiek, tekstmanipulatie en alles wat ML-gerelateerd is (feature engineering, data verrijking ...). Die edge cases zijn de beoogde use cases van Python-modellen. Productmanagers zijn tijdens de keynote heel duidelijk geweest dat het voor basis use cases zal zijn die data transformaties impliceren. Het aanroepen van externe API's wordt niet aanbevolen.
Hoe werkt het?
Ten eerste wordt de code, net als bij SQL-modellen, uitgevoerd op uwdata .
Ten tweede moet je, net als bij SQL-modellen, je syntax aanpassen aan het onderliggende cloud . In SQL moet je het juiste SQL-dialect gebruiken. In Python is er een andere set bibliotheken beschikbaar.
De functie is vanaf vandaag beschikbaar op drie data platforms:
Als je bijvoorbeeld Snowflake gebruikt, kun je snowpark gebruiken voor je transformaties. Merk op dat de functie nog in de vroege dagen is, zoals vermeld door Eda Johnson en Venkatesh Sekar in hun toespraak "Empowering pythonistas with dbt and snowpark". snowpark is nog in publieke preview.
Zoals aangegeven tijdens de keynote, is er ruimte voor verbetering om dichter bij de ervaring van een Python software engineer te komen (hergebruik van code tussen modellen vergemakkelijken, testmogelijkheden bieden en docstrings gebruiken voor documentatie ...).
A lot of improvements for dbt cloud
Een paar maanden geleden deed een blogpost met de titel "We moeten praten over dbt", geschreven door Petram Navid, veel stof opwaaien. Tristan Handy, de CEO van dbt labs, antwoordde op Pedram's zorgen, vooral die over dbt cloud. Inderdaad, in de oorspronkelijke blog post, wees de lange tijd dbt beoefenaar op de slechte ervaring die hij had op dbt cloud. Tristan was het ermee eens dat ze hard moesten werken om de ervaring van ontwikkelaars te verbeteren.
En dat hebben ze gedaan! Deze week kondigde dbt Labs een volledige vernieuwing aan van de cloud IDE, UI-verbeteringen en een vermindering van de latentie voor veelvoorkomende bewerkingen zoals het opslaan van een bestand.
Dit zal goed nieuws zijn voor dbt cloud adopters!
The semantic layer is a structural shift in the way you manage your data
Dit is een actueel onderwerp!
Tijdens de keynote definieerden de sprekers de semantische laag als "het platform voor het compileren en benaderen van dbt-assets in downstream tools".
De semantische laag is bedoeld om veelvoorkomende uitdagingen op het gebied van data governance op te lossen:
Het doel hier is om het bereik van dbt uit te breiden. Op dit moment is het bereik beperkt tot de transformatielaag. We kunnen deze semantische laag toevoegen bovenop de transformatielaag.
Dit is logisch. In versie 1.0 werden metrieken geïntroduceerd. Dit was de eerste stap naar de visie van een semantische laag.
dbt at the heart of the modern data stack ecosystem
Wat me opviel tijdens deze conferentie is het aantal partnerschappen dat werd aangekondigd. Ook werden de meeste lezingen gegeven door partners.
Softwareleveranciers zoals Atlan, Collibra of MonteCarlo moeten integreren met dbt omdat hun klanten hen dat gevraagd hebben. dbt wordt stilaan de standaard voor data transformatie. Je wilt je transformaties zien in je globale data lineage die mogelijk worden beheerd met een externe tool zoals Collibra. Je wilt ook de resultaten van je dbt-tests kunnen controleren met je favoriete tool enz. Je hebt integratie nodig tussen je tools.
In tegenstelling tot dataform, de enige concurrent van dbt op dit moment, heb ik het gevoel dat dbt labs cloud wil blijven. Ze bieden veel integraties met nicheoplossingen om bijvoorbeeld je data of je metadata beter te beheren.
Conclusie
Dat was het! Deze editie was erg rijk. En we sluiten deze week af met veel discussies over de aankondigingen. Dat maakt deze baan spannend!
Nu we het er toch over hebben, we huren op Artefact! Dat zag je vast niet aankomen 😉

BLOG







