Accelerating Data Literacy Using Machine Learning Data Catalogs

Autor

John Ly

Consultor Sênior, Estratégia e Gestão Data, na Artefact USA

Antes de explorar os catálogos data de aprendizado de máquina (ML), vamos definir o que é um catálogo data básico: um repositório central que armazena metadata, como fontes data, formatos data, bases data relacionais e linhagem data, e identifica seus respectivos proprietários. Considerados amplamente como a base de uma organização data-driven, os catálogos data promovem a alfabetização data em toda a empresa, servem como uma única fonte de verdade sobre como o data deve ser interpretado e usado em análises e promovem o data como um produto por meio da propriedade dos ativos data.

Enquanto Os catálogos data existem desde a década de 1950, No entanto, o primeiro catálogo data alimentado por ML, o “Automated Data Catalog”, só foi apresentado em 2012 pela empresa de software corporativo Alation. Esses catálogos automatizados permitiram recursos que parecem óbvios hoje em dia, como a captura automática de metadata, mas abriram caminho para os catálogos data superalimentados por ML de outros fornecedores, como Collibra e Atlan.

Seis recursos a serem procurados em um catálogo ML Data

1. Etiquetagem automatizada do data: O “Home Address” é automaticamente marcado como “PII” e classificado em um pool de gerenciamento de acesso seguro e em um domínio data “Customer” para consumo.

2. Pesquisa semântica com tecnologia de IA: Ao fazer referência ao histórico de pesquisa, a pesquisa de catálogo do ML data prevê o ativo data mais relevante e agiliza a pesquisa para o usuário.

3. Mapeamento automatizado da linhagem data: Captura automaticamente as transformações em uma tabela do Sistema de Registro (SOR) para o painel usado para consumo comercial.

4. Melhoria da qualidade do Data: O catálogo ML identifica a formatação inconsistente (ou seja, “May 2023”’ em vez de “20230501”) e fornece sugestões para melhorar o data.

5. Perfil automatizado do data: Ao analisar a integração da liquidez data em todo o ecossistema tecnológico, as equipes data das instituições financeiras são alertadas sobre possíveis problemas de qualidade data que podem ser resolvidos para demonstrar com precisão sua exposição ao risco.

6. Data Discovery: Quando uma base de dados do data com métricas de comportamento do consumidor é integrada ao catálogo, os recursos de ML classificam automaticamente o data e agilizam a recuperação futura.

Com esses recursos adicionais, as organizações podem organizar, visualizar e contextualizar seu data em escala, A empresa está trabalhando para melhorar a qualidade dos insights e acelerar o tempo de entrega de projetos de análise que apoiam diretamente a tomada de decisões de alto nível.

Como os catálogos do ML Data podem acelerar a alfabetização no data?

A alfabetização em Data, como dito anteriormente, é a etapa fundamental para se tornar uma organização data-driven. Se os consumidores de data (analistas e cientistas de data, tomadores de decisão etc.) não entenderem o data, isso não será melhor do que o excesso de armazenamento, o que é negativo quando se considera o custo de armazenar data.

Os catálogos do data alimentados por ML apoiam a alfabetização no data não apenas removendo as barreiras para aprender sobre o data, mas, o que é mais importante, explicando-o na linguagem do negócio. Por exemplo, as tags automatizadas do data podem organizar os ativos do data em domínios específicos do negócio com base em vários elementos, fornecendo um denominador comum que pode ser usado tanto por um engenheiro do data quanto por um executivo de RH. Além disso, Quando as funções que não são do data conseguem aproveitar os recursos do data para melhorar sua produção, elas recorrerão ao data (e ao catálogo do data) na próxima vez que enfrentarem um desafio semelhante, O senhor pode criar organicamente uma organização alfabetizada em data e data-driven.

Por que se tornar alfabetizado e orientado para o data é essencial para o sucesso

Tornar-se uma organização data-driven é imperativo, dada a natureza em rápida evolução do ambiente de negócios atual. Em uma pesquisa Em um estudo realizado por Traci Gusher, líder de data e análise (D&A), 93% das empresas indicaram que continuariam a aumentar “agressivamente” seus investimentos em recursos de D&A. No entanto, de acordo com Deborah Leff, De acordo com o CTO da Data Science and AI da IBM, 87% dos projetos científicos da data nunca passam da fase de planejamento, afetando negativamente as ambições da data.

Com enormes investimentos sendo feitos por empresas de todos os setores, Os vencedores serão aqueles que conseguirem ajudar suas partes interessadas a se tornarem alfabetizados em data. O sucesso na missão de se tornar data-driven mostrou que o aumento do EBITDA em até 25%.

É importante entender que uma empresa não pode se tornar data-driven sem antes tomar as medidas necessárias para se tornar alfabetizada em data. Capacitar as pessoas com uma única fonte de verdade para seu data, com recursos de ML que eliminam tarefas manuais redundantes, como mapeamento de linhagem, atribuição de tags e proprietários de data e criação de perfis de data, aumenta a transparência e a confiança.

Data Catálogos: um componente essencial para a tomada de decisões

O aprendizado de máquina sobrecarregou os catálogos do data e os transformou em uma ferramenta essencial para o cenário de negócios atual. A capacidade de eliminar as suposições da compreensão de conjuntos complexos de data por meio de ações “inteligentes” consistentes aumenta a transparência, o que gera confiança nos ativos de data, resultando em um maior uso do data, gerando mais insights e produzindo um produto final de tomada de decisões de data-driven.

Entre em contato conosco