dbt coalesce 2022 recap

Auteur

Benoît Goujon

Data ingenieur bij Artefact Frankrijk

Lees ons artikel over

De editie van dit jaar vond plaats in New Orleans. En net als bij de vorige edities leerden we veel over het landschap van analytics engineering.

Het evenement georganiseerd door dbt was dit jaar terug. U kon het evenement in New Orleans bijwonen of de lezingen online bekijken.

Omdat dbt steeds meer wordt toegepast, verwachtten we veel van deze conferentie. Er werden sessies over verschillende onderwerpen voorgesteld die niet beperkt waren tot het gebruik van dbt. Er waren bijvoorbeeld sessies over loopbaantrajecten voor data-teams.

Zonder verder oponthoud, hier zijn volgens mij de belangrijkste lessen van deze editie:

kunt u nu uw modellen in Python schrijven
de dbt cloud UI en IDE zijn vernieuwd voor een veel betere ontwikkelaarservaring
dbt introduceerde zijn eigen versie van de semantische laag
dbt streeft naar het hart van het moderne data ecosysteem

Laten we eens in de details duiken.

Python modellen, eindelijk!

Het was zeker de meest verwachte functie. U kunt nu Python-modellen uitvoeren. Het gedrag lijkt erg op dat van SQL-modellen.

Deze functie is baanbrekend. Ik denk dat we vaak hetzelfde probleem hebben met een workflow die we niet van begin tot eind kunnen uitvoeren vanwege één of twee bewerkingen die erg lastig zijn om uit te voeren in SQL. Dit is pijnlijk omdat we een extra laag nodig hebben. We willen dit niet heen en weer beheren tussen dbt en een andere component.

Dit was met name het geval voor geavanceerde statistiek, tekstmanipulatie en alles wat ML-gerelateerd is (feature engineering, data-verrijking ...). Deze edge cases zijn de beoogde use cases van Python-modellen. Productmanagers zijn tijdens de keynote heel duidelijk geweest dat het voor basisgebruiksgevallen die data transformaties impliceren. Het aanroepen van externe API's wordt niet aanbevolen.

Dus, hoe werkt het?

Ten eerste, vergelijkbaar met SQL-modellen, de code wordt uitgevoerd op uw cloud data platform.

Ten tweede moet u, op dezelfde manier als bij SQL-modellen, uw syntaxis aanpassen aan het onderliggende cloud-platform. In SQL moet u het juiste SQL-dialect gebruiken. In Python hebt u een verschillende set bibliotheken die beschikbaar zullen zijn.

De functie is vanaf vandaag beschikbaar op drie data platforms:

Sneeuwvlok
BigQuery
Databricks

Als u bijvoorbeeld Snowflake gebruikt, kunt u snowpark gebruiken voor uw transformaties. Merk op dat de functie nog in de kinderschoenen staat, zoals vermeld door Eda Johnson en Venkatesh Sekar in hun toespraak “Empowering pythonistas with dbt and snowpark”. snowpark is nog in openbare preview.

Zoals tijdens de keynote werd gezegd, is er ruimte voor verbetering om dichter bij de ervaring van een Python software engineer te komen (hergebruik van code tussen modellen vergemakkelijken, testmogelijkheden bieden en docstrings gebruiken voor documentatie ...).

Veel verbeteringen voor dbt cloud

Enkele maanden geleden verscheen er een blogbericht met de titel “We moeten praten over dbt”, geschreven door Petram Navid, zorgde voor opschudding. Tristan Handy, de CEO van dbt labs, antwoordde aan Pedram's zorgen, vooral die over dbt cloud. In de oorspronkelijke blogpost wees de langjarige dbt-beoefenaar inderdaad op de slechte ervaring die hij had met dbt cloud. Tristan was het ermee eens dat ze hard moesten werken om de ervaring van de ontwikkelaar te verbeteren.

En dat hebben ze gedaan! Deze week kondigde dbt Labs een complete vernieuwing van de cloud IDE aan, UI-verbeteringen en een vermindering van de latentie voor veelvoorkomende bewerkingen zoals het opslaan van een bestand.

Dit zal goed nieuws zijn voor dbt cloud adopters!

De semantische laag is een structurele verschuiving in de manier waarop u uw data

Dit is een actueel onderwerp!

Tijdens de keynote definieerden de sprekers de semantische laag als “het “platform voor het compileren van en toegang krijgen tot dbt-assets in downstream-tools”.

De semantische laag is bedoeld om veelvoorkomende data governance uitdagingen op te lossen:

het ontbreken van de juiste toegangsbeheer
de duplicatie van data activa, wat resulteert in een technische schuld en inconsistentie tussen uw KPI's
het gebrek aan documentatie van uw data activa, wat gepaard gaat met vindbaarheid problemen

Het doel hier is om het bereik van dbt uit te breiden. Op dit moment is het bereik beperkt tot de transformatielaag. We zouden deze semantische laag bovenop de transformatielaag kunnen toevoegen.

Dit is logisch. In versie 1.0 werden metrieken geïntroduceerd. Dit was de eerste stap in de richting van de visie van een semantische laag.

dbt in het hart van het moderne data stack-ecosysteem

Wat me opviel tijdens deze conferentie is het aantal partnerschappen dat werd aangekondigd. Ook werden de meeste lezingen gegeven door partners.

Softwareleveranciers zoals Atlan, Collibra of MonteCarlo moeten integreren met dbt omdat hun klanten hen dat gevraagd hebben. dbt wordt langzaam maar zeker de standaard voor data transformaties. U wilt uw transformaties zien in uw globale data lineage die mogelijk beheerd worden met een externe tool zoals Collibra. U wilt ook de resultaten van uw dbt-tests kunnen controleren met de tool van uw voorkeur, enz. U hebt integratie tussen uw tools nodig.

In tegenstelling tot dataform, de enige concurrent van dbt vanaf vandaag, heb ik het gevoel dat dbt labs cloud-neutraal wil blijven. Ze bieden veel integraties met niche-oplossingen om bijvoorbeeld uw data-kwaliteit of uw metadata beter te beheren.

Conclusie

Het zit erop! Deze editie was erg rijk. En we sluiten deze week af met veel discussies over de aankondigingen. Dat maakt deze baan spannend!

Daarover gesproken, wij huren bij Artefact! Dat zag je vast niet aankomen 😉

Medium Blog bij Artefact.

Dit artikel werd oorspronkelijk gepubliceerd op Medium.com.
Volg ons op ons medium Blog !

Lees ons artikel

Neem contact met ons op

dbt coalesce 2022 samenvatting