dbt coalesce 2022 recap

Autor

Benoît Goujon

Data ingeniero en Artefact Francia

Lea nuestro artículo sobre

La edición de este año tuvo lugar en Nueva Orleans. Y como en las ediciones anteriores, aprendimos mucho sobre el panorama de la ingeniería analítica.

El evento organizado por dbt volvió este año. Podía asistir físicamente en Nueva Orleans o ver las charlas en línea.

Dado que la adopción de la dbt está aumentando, esperábamos mucho de esta conferencia. Se propusieron sesiones sobre diferentes temas que no se limitaban al uso de la dbt. Por ejemplo, hubo sesiones sobre las trayectorias profesionales de los equipos data.

Sin más dilación, he aquí las lecciones clave de esta edición en mi opinión:

ahora puede escriba sus modelos en Python
el dbt cloud La interfaz de usuario y el IDE se han renovado para una experiencia mucho mejor del desarrollador
dbt introdujo su propia versión del capa semántica
dbt pretende estar a el corazón del moderno ecosistema data

Sumerjámonos en los detalles.

Modelos Python, ¡por fin!

Sin duda era la característica más esperada. Ahora puede ejecutar modelos Python. El comportamiento es muy similar al de los modelos SQL.

Esta función cambia las reglas del juego. Creo que somos muchos los que experimentamos el mismo problema con un flujo de trabajo que no podemos ejecutar de extremo a extremo debido a una o dos operaciones que son muy complicadas de realizar en SQL. Esto es doloroso porque necesitamos una capa adicional. No queremos gestionar este ir y venir entre dbt y otro componente.

Este fue el caso en particular de la estadística avanzada, la manipulación de textos y todo lo relacionado con el ML (ingeniería de características, enriquecimiento data...). Esos casos extremos son los casos de uso objetivo de los modelos Python. Los responsables de producto han dejado muy claro durante la keynote que será para casos de uso básicos que implican transformaciones data. No se recomienda llamar a API externas.

Entonces, ¿cómo funciona?

En primer lugar, de forma similar a los modelos SQL, el código se ejecutará en su cloud data platform.

En segundo lugar, al igual que en los modelos SQL, deberá adaptar su sintaxis en función de la plataforma cloud subyacente. En SQL, debe utilizar el dialecto SQL apropiado. En Python, dispone de un conjunto diferente de bibliotecas que estarán disponibles.

La función está disponible en tres data platforms a partir de hoy:

Copo de nieve
BigQuery
Databricks

Por ejemplo, si utiliza Snowflake, puede aprovechar snowpark para sus transformaciones. Tenga en cuenta que esta función está aún en sus inicios, como mencionaron Eda Johnson y Venkatesh Sekar en su charla “Empowering pythonistas with dbt and snowpark”. snowpark está aún en fase de vista previa pública.

Como se dijo durante el discurso de apertura, hay margen de mejora para acercarse más a la experiencia de un ingeniero de software de Python (facilitar la reutilización de código entre modelos, proporcionar capacidades de prueba y utilizar docstrings para la documentación...).

Muchas mejoras para el dbt cloud

Hace unos meses, una entrada de blog titulada “Tenemos que hablar de la tbd”, escrito por Petram Navid causó sensación. Tristan Handy, director general de dbt labs, respondió a las preocupaciones de Pedram, especialmente las relativas al dbt cloud. De hecho, en la entrada original del blog, el veterano practicante de dbt señalaba la mala experiencia que había tenido con dbt cloud. Tristan estuvo de acuerdo en que deberían trabajar duro para mejorar la experiencia de los desarrolladores.

¡Y lo han hecho! Esta semana, dbt Labs ha anunciado una renovación completa del IDE cloud, mejoras en la interfaz de usuario y una reducción de la latencia de operaciones comunes como guardar un archivo.

¡Será una buena noticia para los adoptantes del dbt cloud!

La capa semántica supone un cambio estructural en la forma de gestionar su data

¡Este es un tema candente!

Durante el discurso de apertura, los ponentes definieron la capa semántica como “la plataforma para compilar y acceder a los activos dbt en las herramientas posteriores“.

La capa semántica pretende resolver los retos comunes del data governance:

la falta de gestión de acceso
el duplicación de activos data, lo que se traduce en deuda técnica y incoherencia entre sus KPI
la falta de documentación de sus activos data, que se une a descubribilidad cuestiones

El objetivo aquí es ampliar el ámbito de aplicación de dbt. Por ahora, el ámbito se limita a la capa de transformación. Podríamos añadir esta capa semántica sobre la capa de transformación.

Esto tiene sentido. En la versión 1.0 se habían introducido las métricas. Este fue el primer paso hacia la visión de una capa semántica.

dbt en el corazón del ecosistema moderno de la pila data

Lo que me impactó durante esta conferencia fue el número de asociaciones anunciadas. Además, la mayoría de las charlas fueron impartidas por socios.

Los proveedores de software como Atlan, Collibra o MonteCarlo necesitan integrarse en dbt porque sus clientes se lo han pedido. dbt se está convirtiendo poco a poco en el estándar para la transformación data. Usted quiere ver sus transformaciones en su linaje global data que podrían gestionarse con una herramienta externa como Collibra. También quiere controlar los resultados de sus pruebas dbt con su herramienta preferida, etc. Necesita integración entre sus herramientas.

A diferencia de dataform, el único competidor de dbt a día de hoy, tengo la sensación de que dbt labs quiere seguir siendo neutral respecto a cloud. Ofrecen muchas integraciones con soluciones nicho para gestionar mejor su calidad data o su metadata, por ejemplo.

Conclusión

¡Se acabó! Esta edición ha sido muy rica. Y terminamos esta semana con muchas discusiones sobre los anuncios. ¡Eso es lo que hace emocionante este trabajo!

Hablando de eso, nosotros alquile ¡en Artefact! Seguro que no se lo esperaba 😉 .

Medio Blog por Artefact.

Este artículo se publicó inicialmente en Medium.com.
¡Síganos en nuestro Medium Blog !

Lea nuestro artículo

Contáctenos

resumen de dbt coalesce 2022