Antes de explorar los catálogos de data de aprendizaje automático (ML), definamos qué es un catálogo data básico: un repositorio central que almacena metadatos como fuentes de data , formatos de data , bases de datos relacionales y linaje de data , e identifica a sus respectivos propietarios. Ampliamente considerados como la base de una organización data, los catálogos data promueven la alfabetización de data en toda la empresa, sirven como una única fuente de verdad sobre cómo deben interpretarse y utilizarse data en el análisis, y promueven data como un producto a través de la propiedad de los activos de data .

Aunque los catálogosdata existen desde la década de 1950, el primer catálogo data impulsado por ML, el "Catálogo automatizado Data ", no fue introducido hasta 2012 por la empresa de software empresarial Alation. Estos catálogos automatizados permitían capacidades que hoy parecen obvias, como la captura automática de metadatos, pero allanaron el camino para los catálogos ML data sobrealimentados de otros proveedores, como Collibra y Atlan.

Seis características que debe tener un catálogo de ML Data

1. Etiquetado automatizado data :"Dirección particular" se etiqueta automáticamente como "PII" y se clasifica en un grupo de gestión de acceso seguro y en un dominio "Cliente" data para su consumo.

2. AI-2 . Búsqueda semántica potenciada: Al hacer referencia al historial de búsqueda, la búsqueda en el catálogo ML data predice el activo data más relevante y agiliza la búsqueda para el usuario.

3. Mapeo automatizado del linaje data : Captura automáticamente las transformaciones de una tabla desde el Sistema de Registro (SOR) al cuadro de mando utilizado para el consumo empresarial.

4. Mejora de la calidad deData : El catálogo ML identifica las incoherencias de formato (por ejemplo, "mayo de 2023"' en lugar de "20230501") y ofrece sugerencias para mejorar el data.

5. Elaboración automatizada de perfiles data : Al analizar la integración de la liquidez data en todo el ecosistema tecnológico, los equipos de data de las instituciones financieras reciben alertas sobre posibles data problemas de calidad que pueden resolverse para demostrar con precisión su exposición al riesgo.

6. Data Descubrimiento: Cuando una base de datos con métricas de comportamiento del consumidor se integra en el catálogo, las capacidades de ML clasifican automáticamente la data y agilizan la futura recuperación.

Con estas capacidades añadidas, las organizaciones pueden organizar, visualizar y contextualizar su data a escala, mejorando la calidad de la información y acelerando el tiempo de entrega de los proyectos analíticos que apoyan directamente la toma de decisiones de alto nivel.

¿Cómo pueden los catálogos de ML Data acelerar la alfabetización en data ?

La alfabetización en Data , como ya se ha dicho, es el paso fundamental para convertirse en una organización data. Si los consumidores de data data analistas y científicosdata , responsables de la toma de decisiones, etc.) no entienden los data, no hay nada mejor que un exceso de almacenamiento, un negativo neto si se tiene en cuenta el coste de almacenar data.

Los catálogos de data impulsados por ML contribuyen a la alfabetización de data no sólo eliminando las barreras al aprendizaje de los data, sino, lo que es más importante, explicándolos en el lenguaje de la empresa. Por ejemplo, las etiquetas de data automatizadas pueden organizar los activos de data en dominios específicos del negocio basados en varios elementos, proporcionando un denominador común que tanto un ingeniero de data como un ejecutivo de RR.HH. pueden utilizar. Además, cuando las funciones data a los datos son capaces de aprovechar los activos de data para mejorar su rendimiento, recurrirán a data (y al catálogo de data ) la próxima vez que se enfrenten a un reto similar, creando orgánicamente una organización data y data.

Por qué es esencial para el éxito alfabetizarse y orientarse hacia data

Convertirse en una organización data es imperativo dada la rápida evolución del entorno empresarial actual. En un estudio de investigación realizado por Traci Gusher, líder en data y análisis (D&A), el 93% de las empresas indicaron que seguirían aumentando "agresivamente" sus inversiones en capacidades de D&A. Sin embargo, según Deborah Leff, CTO de Ciencia Data e AI en IBM, el 87% de los proyectos de ciencia de data nunca pasan de la fase de planificación, lo que repercute negativamente en las ambiciones de data .

Con las enormes inversiones que están realizando las empresas de todos los sectores, los ganadores serán los que sean capaces de ayudar a sus accionistas data. El éxito en la misión de convertirse en una data ha demostrado incrementos del EBITDA de hasta el 25 %.

Es importante comprender que una Compañia no puede data a menos que primero haya dado los pasos necesarios para data. Capacitar a las personas con una única fuente de verdad para sus data, impulsada por las capacidades de ML que eliminan las tareas manuales redundantes, como el mapeo de linaje, la asignación de etiquetas de data y propietarios, y la creación de perfiles de data, aumenta la transparencia y la confianza.

Data Catálogos: un componente esencial de la toma de decisiones

El aprendizaje automático ha potenciado los catálogos de data y los ha transformado en una herramienta esencial para el panorama empresarial actual. La capacidad de eliminar las conjeturas a la hora de comprender conjuntos de datos complejos mediante acciones "inteligentes" coherentes aumenta la transparencia, lo que a su vez genera confianza en los activos de data , lo que se traduce en un mayor uso de data, la generación de mayores conocimientos y la obtención de un producto final de toma de decisiones data.