dbt coalesce 2022 recap

Autor

Benoît Goujon

Data engenheiro da Artefact França

Leia nosso artigo sobre

A edição deste ano foi realizada em Nova Orleans. E, como nas edições anteriores, aprendemos muito sobre o cenário da engenharia analítica.

O evento organizado pela dbt voltou este ano. O senhor pode participar fisicamente em Nova Orleans ou assistir às palestras on-line.

Como a adoção da dbt está aumentando, esperávamos muito dessa conferência. Foram propostas sessões sobre diferentes tópicos que não se limitavam ao uso de dbt. Por exemplo, houve sessões sobre planos de carreira para equipes data.

Sem mais delongas, aqui estão as principais lições desta edição, na minha opinião:

O senhor pode agora escrever seus modelos em Python
o dbt cloud A interface do usuário e o IDE foram renovados para uma experiência de desenvolvedor muito melhor
O dbt introduziu sua própria versão do camada semântica
A dbt pretende estar em o coração do ecossistema moderno do data

Vamos nos aprofundar nos detalhes.

Modelos Python, finalmente!

Esse era certamente o recurso mais esperado. Agora o senhor pode executar modelos Python. O comportamento é muito semelhante ao dos modelos SQL.

Esse recurso é revolucionário. Acho que muitos de nós temos o mesmo problema com um fluxo de trabalho que não podemos executar de ponta a ponta por causa de uma ou duas operações que são muito complicadas de fazer no SQL. Isso é doloroso porque precisamos de uma camada extra. Não queremos gerenciar esse vai e vem entre o dbt e outro componente.

Esse foi o caso, em particular, de estatísticas avançadas, manipulação de texto e tudo o que está relacionado ao ML (engenharia de recursos, enriquecimento de data...). Esses casos extremos são os casos de uso alvo dos modelos Python. Os gerentes de produto deixaram bem claro durante a apresentação que será para casos de uso básicos que implicam em transformações data. A chamada de APIs externas não é recomendada.

Então, como isso funciona?

Primeiro, semelhante aos modelos SQL, o código será executado em seu cloud data platform.

Em segundo lugar, da mesma forma que os modelos SQL, o senhor deve adaptar sua sintaxe dependendo da plataforma cloud subjacente. No SQL, o senhor precisa usar o dialeto SQL apropriado. No Python, o senhor tem um conjunto diferente de bibliotecas que estarão disponíveis.

O recurso está disponível em três data platforms a partir de hoje:

Floco de neve
BigQuery
Databricks

Por exemplo, se o senhor usa o Snowflake, pode aproveitar o snowpark para suas transformações. Observe que o recurso ainda está em seus primeiros dias, conforme mencionado por Eda Johnson e Venkatesh Sekar em sua palestra “Empowering pythonistas with dbt and snowpark”.

Conforme declarado durante a palestra, há espaço para melhorias para se aproximar da experiência de um engenheiro de software Python (facilitar a reutilização de código entre modelos, fornecer recursos de teste e usar docstrings para documentação...).

Muitos aprimoramentos para o dbt cloud

Há alguns meses, uma postagem no blog intitulada “Precisamos falar sobre dbt”, O artigo de Tristan Handy, escrito por Petram Navid, causou sensação. Tristan Handy, CEO da dbt labs, respondeu O senhor também não se importou com as preocupações de Pedram, especialmente as relacionadas ao dbt cloud. De fato, na postagem original do blog, o praticante de longa data do dbt apontou a experiência ruim que teve com o dbt cloud. Tristan concordou que eles deveriam trabalhar duro para melhorar a experiência do desenvolvedor.

E eles conseguiram! Esta semana, a dbt Labs anunciou uma reformulação completa do IDE cloud, melhorias na interface do usuário e uma redução da latência para operações comuns, como salvar um arquivo.

Essa será uma boa notícia para os usuários do dbt cloud!

A camada semântica é uma mudança estrutural na forma como o senhor gerencia seu data

Esse é um tema quente!

Durante a palestra, os palestrantes definiram a camada semântica como “a “plataforma para compilar e acessar ativos de dbt em ferramentas downstream”.

A camada semântica tem como objetivo resolver desafios comuns do data governance:

A falta de gerenciamento de acesso
o duplicação de ativos data, o que resulta em dívida técnica e inconsistência entre seus KPIs
a falta de documentação de seus ativos data, que, juntamente com descoberta problemas

O objetivo aqui é ampliar o escopo do dbt. Por enquanto, o escopo está limitado à camada de transformação. Poderíamos adicionar essa camada semântica sobre a camada de transformação.

Isso faz sentido. Na versão 1.0, as métricas foram introduzidas. Esse foi o primeiro passo em direção à visão de uma camada semântica.

dbt no centro do ecossistema moderno da pilha data

O que me chamou a atenção durante essa conferência foi o número de parcerias anunciadas. Além disso, a maioria das palestras foi apresentada por parceiros.

Fornecedores de software como Atlan, Collibra ou MonteCarlo precisam se integrar ao dbt porque seus clientes pediram. O dbt está lentamente se tornando o padrão para a transformação do data. O senhor deseja ver as transformações em sua linhagem global de data que podem ser gerenciadas com uma ferramenta externa como a Collibra. O senhor também deseja monitorar os resultados de seus testes de dbt com sua ferramenta preferida etc. O senhor precisa de integração entre suas ferramentas.

Ao contrário do dataform, o único concorrente do dbt até o momento, tenho a impressão de que o dbt labs quer permanecer neutro em relação ao cloud. Eles oferecem muitas integrações com soluções de nicho para gerenciar melhor a qualidade do data ou o metadata, por exemplo.

Conclusão

É isso aí! Esta edição foi muito rica. E terminamos esta semana com muitas discussões sobre os anúncios. É isso que torna esse trabalho empolgante!

Falando nisso, nós contratar no Artefact! Tenho certeza que o senhor não esperava por isso 😉

Média Blog por Artefact.

Este artigo foi publicado inicialmente no Medium.com.
Siga-nos em nosso Medium Blog !

Leia nosso artigo

Entre em contato conosco

recapitulação do dbt coalesce 2022