Accelerating Data Literacy Using Machine Learning Data Catalogs

Autor

John Ly

Consultor Senior, Estrategia y Gestión Data, en Artefact EE.UU.

Antes de explorar los catálogos data de aprendizaje automático (ML), definamos qué es un catálogo data básico: un repositorio central que almacena metadata como fuentes data, formatos data, bases data relacionales y linaje data, e identifica a sus respectivos propietarios. Ampliamente considerados como la base de una organización data-driven, los catálogos data promueven la alfabetización data en toda la empresa, sirven como única fuente de verdad sobre cómo debe interpretarse y utilizarse la data en los análisis, y promueven la data como producto a través de la propiedad de los activos data.

Mientras que Los catálogos data existen desde los años 50, el primer catálogo data potenciado por ML, el “Catálogo Data automatizado”, no fue introducido hasta 2012 por la empresa de software empresarial Alation. Estos catálogos automatizados habilitaron capacidades que hoy parecen obvias, como la captura automática de metadata, pero allanaron el camino para los catálogos ML data sobrealimentados de otros proveedores, como Collibra y Atlan.

Seis características que debe buscar en un Catálogo ML Data

1. Etiquetado automático data: “Dirección particular” se etiqueta automáticamente como “PII” y se clasifica en un grupo de gestión de acceso seguro y en un dominio data “Cliente” para su consumo.

2. Búsqueda semántica potenciada por IA: Al hacer referencia al historial de búsqueda, la búsqueda en el catálogo ML data predice el activo data más relevante y agiliza la búsqueda para el usuario.

3. Mapeo automatizado del linaje data: Captura automáticamente las transformaciones de una tabla desde el Sistema de Registro (SOR) al cuadro de mando utilizado para el consumo empresarial.

4. Data mejora de la calidad: El catálogo ML identifica un formato incoherente (es decir, “mayo de 2023”’ en lugar de “20230501”) y ofrece sugerencias para mejorar el data.

5. Perfilado automatizado data: Al analizar la integración de la liquidez data en todo el ecosistema tecnológico, los equipos data de las instituciones financieras reciben alertas sobre posibles problemas de calidad data que pueden resolverse para demostrar con precisión su exposición al riesgo.

6. Data Descubrimiento: Cuando se integra en el catálogo una database con métricas de comportamiento del consumidor, las capacidades de ML clasifican automáticamente la data y agilizan la recuperación futura.

Con estas capacidades añadidas, las organizaciones pueden organizar, visualizar y contextualizar su data a escala, mejorando la calidad de los conocimientos y acelerando el plazo de entrega de los proyectos analíticos que apoyan directamente la toma de decisiones de alto nivel.

¿Cómo pueden los catálogos ML Data acelerar la alfabetización data?

La alfabetización Data, como ya se ha dicho, es el paso fundamental para convertirse en una organización data-driven. Si los consumidores de data (analistas y científicos del data, responsables de la toma de decisiones, etc.) no comprenden el data, no es mejor que el exceso de almacenamiento, un negativo neto si se tiene en cuenta el coste de almacenar data.

Los catálogos data potenciados por ML apoyan la alfabetización data no sólo eliminando las barreras para aprender sobre el data, sino, lo que es más importante, explicándolo en el lenguaje de la empresa. Por ejemplo, las etiquetas data automatizadas pueden organizar los activos data en dominios específicos del negocio basados en diversos elementos, proporcionando un denominador común que tanto un ingeniero data como un ejecutivo de RRHH pueden utilizar. Además, cuando las funciones no data sean capaces de aprovechar los activos data para mejorar su rendimiento, recurrirán a data (y al catálogo data) la próxima vez que se enfrenten a un reto similar, creando orgánicamente una organización data y data-driven.

Por qué es esencial para el éxito estar alfabetizado e impulsado por el data

Convertirse en una organización data-driven es imperativo dada la naturaleza de rápida evolución del entorno empresarial actual. En una investigación estudio realizado por Traci Gusher, líder en data y análisis (D&A), 93% de las empresas indicaron que seguirían aumentando “agresivamente” sus inversiones en capacidades de D&A. Sin embargo, según Deborah Leff, CTO de Data Ciencia e IA en IBM, 87% de los proyectos científicos de data nunca pasan de la fase de planificación, lo que repercute negativamente en las ambiciones de data.

Las empresas de todos los sectores están realizando enormes inversiones, los ganadores serán aquellos que sean capaces de ayudar a sus interlocutores a alfabetizarse en data. El éxito en la misión de convertirse en data-driven ha demostrado aumentos del EBITDA de hasta 25%.

Es importante entender que una empresa no puede convertirse en data-driven a menos que primero haya dado los pasos necesarios para convertirse en data-literate. Capacitar a las personas con una única fuente de verdad para su data, impulsada por capacidades ML que eliminan tareas manuales redundantes como el mapeo del linaje, la asignación de etiquetas y propietarios de data y la creación de perfiles de data, impulsa la transparencia y la confianza.

Data Catálogos: un componente crítico de la toma de decisiones

El aprendizaje automático ha sobrealimentado los catálogos data y los ha transformado en una herramienta esencial para el panorama empresarial actual. La capacidad de eliminar las conjeturas a la hora de comprender conjuntos data complejos mediante acciones “inteligentes” coherentes aumenta la transparencia, lo que a su vez genera confianza en los activos data, dando lugar a un mayor uso de data, generando mayores conocimientos y produciendo un producto final de toma de decisiones data-driven.

Contáctenos