dbt coalesce 2022 recap

Autor

Benoît Goujon

Data Ingenieur bei Artefact Frankreich

Lesen Sie unseren Artikel über

Die diesjährige Ausgabe fand in New Orleans statt. Und wie bei den vergangenen Ausgaben haben wir eine Menge über die Landschaft der Analysetechnik gelernt.

Die von dbt organisierte Veranstaltung fand dieses Jahr wieder statt. Sie konnten vor Ort in New Orleans teilnehmen oder die Vorträge online verfolgen.

Da dbt immer häufiger eingesetzt wird, haben wir uns von dieser Konferenz viel versprochen. Es wurden Sitzungen zu verschiedenen Themen angeboten, die sich nicht auf den Einsatz von dbt beschränkten. Zum Beispiel gab es Sitzungen über Karrierewege für data-Teams.

Ohne lange zu zögern, hier sind die wichtigsten Erkenntnisse aus dieser Ausgabe, meiner Meinung nach:

können Sie jetzt Ihre Modelle in Python schreiben
die dbt cloud UI und IDE wurden überarbeitet für eine viel bessere Erfahrung für Entwickler
dbt hat seine eigene Version des semantische Schicht
dbt will sein bei das Herzstück des modernen data-Ökosystems

Lassen Sie uns in die Details eintauchen.

Python-Modelle, endlich!

Das war sicherlich die am meisten erwartete Funktion. Sie können jetzt Python-Modelle ausführen. Das Verhalten ist dem von SQL-Modellen sehr ähnlich.

Diese Funktion ist bahnbrechend. Ich denke, dass viele von uns das gleiche Problem mit einem Workflow haben, den wir nicht durchgängig ausführen können, weil ein oder zwei Operationen in SQL sehr schwierig sind. Das ist schmerzhaft, weil wir eine zusätzliche Ebene benötigen. Wir wollen das nicht zwischen dbt und einer anderen Komponente hin und her schieben.

Dies gilt insbesondere für fortgeschrittene Statistiken, Textmanipulation und alles, was mit ML zu tun hat (Feature Engineering, data-Anreicherung ...). Diese Randfälle sind die Zielanwendungsfälle von Python-Modellen. Die Produktmanager haben auf der Keynote sehr deutlich gemacht, dass es für grundlegende Anwendungsfälle, die data-Transformationen implizieren. Das Aufrufen externer APIs wird nicht empfohlen.

Wie funktioniert es also?

Erstens, ähnlich wie bei SQL-Modellen, wird der Code auf Ihrem cloud data platform ausgeführt.

Zweitens müssen Sie, genau wie bei SQL-Modellen, Ihre Syntax je nach der zugrunde liegenden cloud-Plattform anpassen. In SQL müssen Sie den entsprechenden SQL-Dialekt verwenden. In Python haben Sie eine verschiedene Bibliotheken, die verfügbar sein werden.

Die Funktion ist ab heute auf drei data platforms verfügbar:

Schneeflocke
BigQuery
Databricks

Wenn Sie zum Beispiel Snowflake verwenden, können Sie Snowpark für Ihre Transformationen nutzen. Beachten Sie, dass diese Funktion noch in den Kinderschuhen steckt, wie Eda Johnson und Venkatesh Sekar in ihrem Vortrag “Empowering pythonistas with dbt and snowpark” erwähnen. snowpark befindet sich noch in der öffentlichen Vorschau.

Wie während der Keynote gesagt wurde, gibt es Raum für Verbesserungen um der Erfahrung eines Python-Softwareingenieurs näher zu kommen (Erleichterung der Wiederverwendung von Code über verschiedene Modelle hinweg, Bereitstellung von Testfunktionen und Verwendung von Docstrings für die Dokumentation ...).

Eine Menge Verbesserungen für dbt cloud

Vor ein paar Monaten erschien ein Blogbeitrag mit dem Titel “Wir müssen über dbt sprechen”, geschrieben von Petram Navid, hat Wellen geschlagen. Tristan Handy, der CEO von dbt labs, antwortete zu Pedrams Bedenken, insbesondere zu denen über dbt cloud. In der Tat hat der langjährige dbt-Anwender im ursprünglichen Blogbeitrag auf die schlechten Erfahrungen hingewiesen, die er mit dbt cloud gemacht hat. Tristan stimmte zu, dass sie hart daran arbeiten sollten, die Erfahrung der Entwickler zu verbessern.

Und das haben sie! Diese Woche kündigte dbt Labs eine komplette Überarbeitung der cloud IDE, Verbesserungen der Benutzeroberfläche und eine Verringerung der Latenzzeit für gängige Operationen wie das Speichern einer Datei an.

Das sind gute Neuigkeiten für dbt cloud-Anwender!

Die semantische Ebene ist eine strukturelle Veränderung in der Art und Weise, wie Sie Ihr data verwalten.

Das ist ein heißes Thema!

Während der Keynote definierten die Redner die semantische Ebene als “die “Plattform für die Kompilierung und den Zugriff auf dbt-Assets in nachgelagerten Tools”.

Die semantische Schicht zielt darauf ab, gemeinsame data governance-Herausforderungen zu lösen:

das Fehlen einer angemessenen Zugangsverwaltung
die Vervielfältigung von data-Aktiva, was zu technischen Schulden und Inkonsistenz zwischen Ihren KPIs
die fehlende Dokumentation Ihrer data-Assets, gepaart mit Auffindbarkeit Ausgaben

Das Ziel ist es, den Anwendungsbereich von dbt zu erweitern. Im Moment ist der Anwendungsbereich auf die Transformationsschicht beschränkt. Wir könnten diese semantische Schicht auf der Transformationsschicht hinzufügen.

Das macht Sinn. In Version 1.0 waren Metriken eingeführt worden. Dies war der erste Schritt in Richtung der Vision einer semantischen Schicht.

dbt im Herzen des modernen data-Stack-Ökosystems

Was mir bei dieser Konferenz aufgefallen ist, ist die Anzahl der angekündigten Partnerschaften. Außerdem wurde ein Großteil der Vorträge von Partnern gehalten.

Softwareanbieter wie Atlan, Collibra oder MonteCarlo müssen sich in dbt integrieren, weil ihre Kunden sie darum gebeten haben. dbt wird langsam zum Standard für data-Transformationen. Sie möchten Ihre Transformationen in Ihrer globalen data-Abstammung sehen, die möglicherweise mit einem externen Tool wie Collibra verwaltet werden. Sie möchten auch die Ergebnisse Ihrer dbt-Tests mit Ihrem bevorzugten Tool überwachen usw. Sie benötigen eine Integration zwischen Ihren Tools.

Im Gegensatz zu dataform, dem bisher einzigen Konkurrenten von dbt, habe ich das Gefühl, dass dbt labs cloud-neutral bleiben möchte. Sie bieten viele Integrationen mit Nischenlösungen an, um zum Beispiel Ihre data-Qualität oder Ihre Metadata besser zu verwalten.

Fazit

Das war's dann wohl! Diese Ausgabe war sehr reichhaltig. Und wir beenden diese Woche mit vielen Diskussionen über die Ankündigungen. Das ist es, was diesen Job so spannend macht!

Wo wir gerade dabei sind, wir mieten bei Artefact! Ich bin sicher, Sie haben es nicht kommen sehen 😉 .

Mittel Blog von Artefact.

Dieser Artikel wurde ursprünglich veröffentlicht auf Medium.com.
Folgen Sie uns auf unserem Medium Blog !

Unseren Artikel lesen

Kontaktieren Sie uns

dbt coalesce 2022 Zusammenfassung