La edición de este año tuvo lugar en Nueva Orleans. Y como en ediciones anteriores, aprendimos un montón sobre el panorama de la ingeniería analítica.
El acto organizado por dbt volvió este año. Se podía asistir físicamente en Nueva Orleans o ver las charlas en línea.
Como la adopción de la dbt está aumentando, esperábamos mucho de esta conferencia. Se propusieron sesiones sobre distintos temas que no se limitaban al uso de la dbt. Por ejemplo, hubo sesiones sobre las trayectorias profesionales de los equipos de data .
Sin más dilación, he aquí las lecciones clave de esta edición en mi opinión:
Profundicemos en los detalles.
Python models, finally!
Sin duda era la característica más esperada. Ahora se pueden ejecutar modelos Python. El comportamiento es muy similar al de los modelos SQL.
Esta función cambia las reglas del juego. Creo que somos muchos los que experimentamos el mismo problema con un flujo de trabajo que no podemos ejecutar de extremo a extremo debido a una o dos operaciones que son muy complicadas de realizar en SQL. Esto es doloroso porque necesitamos una capa adicional. No queremos gestionar esto de ida y vuelta entre dbt y otro componente.
Este era el caso, en particular, de la estadística avanzada, la manipulación de textos y todo lo relacionado con el ML (ingeniería de características, enriquecimiento de data ...). Esos casos extremos son los casos de uso objetivo de los modelos de Python. Los responsables de producto han sido muy claros durante la keynote en que será para casos de uso básicos que impliquen transformaciones data . No se recomienda llamar a APIs externas.
¿Cómo funciona?
En primer lugar, de forma similar a los modelos SQL, el código se ejecutará en su plataformadata cloud .
En segundo lugar, al igual que ocurre con los modelos SQL, debes adaptar tu sintaxis en función de la plataforma cloud subyacente. En SQL, es necesario utilizar el dialecto SQL apropiado. En Python, dispondrás de un conjunto diferente de bibliotecas.
La función está disponible desde hoy en tres plataformas data :
Por ejemplo, si utilizas Snowflake, puedes aprovechar snowpark para tus transformaciones. Tenga en cuenta que la función está todavía en sus primeros días como mencionan Eda Johnson y Venkatesh Sekar en su charla "Empowering pythonistas with dbt and snowpark". snowpark está todavía en vista previa pública.
Como se dijo durante la keynote, hay margen de mejora para acercarse más a la experiencia de un ingeniero de software de Python (facilitar la reutilización de código entre modelos, proporcionar capacidades de prueba y utilizar docstrings para la documentación...).
A lot of improvements for dbt cloud
Hace unos meses, una entrada de blog titulada "Tenemos que hablar de dbt", escrita por Petram Navid, causó sensación. Tristan Handy, director general de dbt labs, respondió a las preocupaciones de Pedram, especialmente las relativas a cloud dbt. De hecho, en la entrada original del blog, el veterano practicante de dbt señalaba la mala experiencia que había tenido con dbt cloud. Tristan estuvo de acuerdo en que deberían trabajar duro para mejorar la experiencia de los desarrolladores.
Y lo han conseguido. Esta semana, dbt Labs ha anunciado una renovación completa del IDE cloud , mejoras en la interfaz de usuario y una reducción de la latencia de operaciones comunes como guardar un archivo.
¡Será una buena noticia para los adoptantes de cloud dbt!
The semantic layer is a structural shift in the way you manage your data
Es un tema candente.
Durante el discurso de apertura, los ponentes definieron la capa semántica como "la plataforma para compilar y acceder a activos dbt en herramientas posteriores".
La capa semántica pretende resolver los problemas comunes de gobernanza de data :
El objetivo es ampliar el alcance de dbt. Por ahora, el ámbito se limita a la capa de transformación. Podríamos añadir esta capa semántica sobre la capa de transformación.
Esto tiene sentido. En la versión 1.0 se introdujeron las métricas. Este fue el primer paso hacia la visión de una capa semántica.
dbt at the heart of the modern data stack ecosystem
Lo que más me sorprendió de esta conferencia fue el número de asociaciones anunciadas. Además, la mayoría de las charlas fueron impartidas por socios.
Los proveedores de software como Atlan, Collibra o MonteCarlo tienen que integrarse en dbt porque sus clientes se lo han pedido. dbt se está convirtiendo poco a poco en el estándar para la transformación de data . Usted quiere ver sus transformaciones en su linaje global data que podría ser gestionado con una herramienta externa como Collibra. También desea supervisar los resultados de sus pruebas dbt con su herramienta preferida, etc. Necesita integración entre sus herramientas.
A diferencia de dataform, el único competidor de dbt a día de hoy, tengo la sensación de que dbt labs quiere seguir siendo cloud. Ofrecen muchas integraciones con soluciones especializadas para gestionar mejor la calidad de los data o los metadatos, por ejemplo.
Conclusión
¡Se acabó! Esta edición ha sido muy rica. Y terminamos esta semana con muchos debates sobre los anuncios. ¡Eso es lo que hace emocionante este trabajo!
Hablando de eso, ¡contratamos en Artefact! Seguro que no te lo esperabas 😉 .

BLOG







