Leia nosso artigo sobre

class="lazyload

.

A edição deste ano foi realizada em Nova Orleans. E, como nas edições anteriores, aprendemos muito sobre o cenário da engenharia analítica.

O evento organizado pela dbt voltou este ano. Você pode participar fisicamente em Nova Orleans ou assistir às palestras on-line.

Como a adoção da DBT está aumentando, esperávamos muito dessa conferência. Foram propostas sessões sobre diferentes tópicos que não se limitavam ao uso de dbt. Por exemplo, houve sessões sobre planos de carreira para as equipes do data .

Sem mais delongas, aqui estão as principais lições desta edição, em minha opinião:

  • agora você pode escrever seus modelos em Python
  • A interface do usuário e o IDE do dbt cloud foram reformulados para proporcionar uma experiência muito melhor ao desenvolvedor
  • O dbt introduziu sua própria versão da camada semântica

  • A dbt tem como objetivo estar no centro do ecossistema moderno do data

Vamos nos aprofundar nos detalhes.

Python models, finally!

Esse era certamente o recurso mais esperado. Agora você pode executar modelos Python. O comportamento é muito semelhante ao dos modelos SQL.

Esse recurso é revolucionário. Acho que estamos acostumados a ter o mesmo problema com um fluxo de trabalho que não podemos executar de ponta a ponta por causa de uma ou duas operações que são muito complicadas de fazer no SQL. Isso é doloroso porque precisamos de uma camada extra. Não queremos gerenciar esse vai e vem entre o dbt e outro componente.

Esse foi o caso, em particular, das estatísticas avançadas, da manipulação de texto e de tudo o que está relacionado ao ML (engenharia de recursos, data enrichment...). Esses casos extremos são os casos de uso alvo dos modelos Python. Os gerentes de produto foram muito claros durante a apresentação de que isso será para casos de uso básicos que implicam transformações data . Não é recomendável chamar APIs externas.

Então, como isso funciona?

Primeiro, semelhante aos modelos SQL, o código será executado em sua plataformadata cloud .

Em segundo lugar, da mesma forma que os modelos SQL, você deve adaptar sua sintaxe dependendo da plataforma cloud subjacente. No SQL, você precisa usar o dialeto SQL apropriado. No Python, você tem um conjunto diferente de bibliotecas que estarão disponíveis.

O recurso está disponível em três plataformas data a partir de hoje:

  • Floco de neve

  • BigQuery

  • Telas de dados

Por exemplo, se você usa o Snowflake, pode aproveitar o snowpark para suas transformações. Observe que o recurso ainda está nos primórdios, conforme mencionado por Eda Johnson e Venkatesh Sekar em sua palestra "Empowering pythonistas with dbt and snowpark". O snowpark ainda está em visualização pública.

Conforme declarado durante a apresentação, há espaço para melhorias para se aproximar da experiência de um engenheiro de software Python (facilitar a reutilização de código entre modelos, fornecer recursos de teste e usar docstrings para documentação...).

A lot of improvements for dbt cloud

Há alguns meses, uma postagem no blog intitulada "We need to talk about dbt" (Precisamos falar sobre dbt), escrita por Petram Navid, causou polêmica. Tristan Handy, CEO do dbt labs, respondeu às preocupações de Pedram, especialmente as que se referiam à cloud do dbt. De fato, na postagem original do blog, o praticante de longa data do dbt apontou a experiência ruim que teve com o dbt cloud. Tristan concordou que eles deveriam trabalhar duro para melhorar a experiência do desenvolvedor.

E eles conseguiram! Esta semana, a dbt Labs anunciou uma reformulação completa do IDE cloud , melhorias na interface do usuário e uma redução da latência para operações comuns, como salvar um arquivo.

Essa será uma boa notícia para os adotantes cloud do dbt!

The semantic layer is a structural shift in the way you manage your data

Esse é um tema quente!

Durante a apresentação, os palestrantes definiram a camada semântica como "a plataforma para compilar e acessar ativos de dbt em ferramentas de downstream".

A camada semântica visa solucionar desafios comuns de governança do data :

  • a falta de um gerenciamento de acesso adequado

  • a duplicação dos ativos do data , o que resulta em dívida técnica e inconsistência entre seus KPIs

  • a falta de documentação de seus ativos data , que está associada a problemas de descoberta

O objetivo aqui é ampliar o escopo do dbt. Por enquanto, o escopo está limitado à camada de transformação. Poderíamos adicionar essa camada semântica sobre a camada de transformação.

Isso faz sentido. Na versão 1.0, as métricas foram introduzidas. Essa foi a primeira etapa em direção à visão de uma camada semântica.

dbt at the heart of the modern data stack ecosystem

O que me chamou a atenção durante essa conferência foi o número de parcerias anunciadas. Além disso, a maioria das palestras foi apresentada por parceiros.

Fornecedores de software como Atlan, Collibra ou MonteCarlo precisam se integrar ao dbt porque seus clientes pediram. O dbt está lentamente se tornando o padrão para a transformação data . Você deseja ver as transformações em sua linhagem global data que podem ser gerenciadas com uma ferramenta externa como a Collibra. Você também deseja monitorar os resultados dos seus testes de dbt com sua ferramenta preferida etc. Você precisa de integração entre suas ferramentas.

Ao contrário da dataform, a única concorrente da dbt até o momento, tenho a impressão de que a dbt labs quer permanecer cloud. Eles oferecem muitas integrações com soluções de nicho para gerenciar melhor a qualidade de seus data ou seus metadados, por exemplo.

Conclusão

É isso aí! Esta edição foi muito rica. E terminamos esta semana com muitas discussões sobre os anúncios. É isso que torna este trabalho empolgante!

Por falar nisso, estamos contratando em Artefact! Tenho certeza de que você não esperava por isso 😉

class="lazyload

Blog do Medium por Artefact.

Este artigo foi publicado inicialmente no Medium.com.
Siga-nos em nosso blog no Medium!