Avant d'explorer les catalogues de data apprentissage machine (ML), définissons ce qu'est un catalogue de data base : un référentiel central qui stocke des métadonnées telles que les sources de data , les formats de data , les bases de données relationnelles et la lignée de data , et qui identifie leurs propriétaires respectifs. Largement considérés comme le fondement d'une organisation data, les catalogues de data favorisent la maîtrise des data à l'échelle de l'entreprise, servent de source unique de vérité sur la manière dont data doivent être interprétées et utilisées dans l'analyse, et promeuvent les data en tant que produit par le biais de la propriété des actifs de data .

Alors que les cataloguesdata existent depuis les années 1950, le premier catalogue data alimenté par ML, le "Automated Data Catalog", n'a été introduit qu'en 2012 par la société de logiciels d'entreprise Alation. Ces catalogues automatisés offrent des fonctionnalités qui semblent évidentes aujourd'hui, telles que la capture automatique des métadonnées, mais ils ont ouvert la voie aux catalogues ML data suralimentés d'autres fournisseurs, tels que Collibra et Atlan.

Six caractéristiques à rechercher dans un catalogue ML Data

1. Marquage automatisé de data : "L'adresse du domicile est automatiquement étiquetée comme "PII" et triée dans un pool de gestion d'accès sécurisé et un domaine "Customer" data pour la consommation.

2. Recherche sémantique alimentée par l'IA: En se référant à l'historique des recherches, la recherche de catalogue ML data prédit l'actif data le plus pertinent et accélère la recherche pour l'utilisateur.

3. Cartographie automatisée du lignage data : Capture automatiquement les transformations d'une table depuis le système d'enregistrement (SOR) jusqu'au tableau de bord utilisé par l'entreprise.

4. Data amélioration de la qualité: Le catalogue ML identifie les incohérences de formatage (par exemple, "May 2023"' au lieu de "20230501") et fournit des suggestions pour améliorer le site data.

5. Profilage automatisé data : En analysant l'intégration de la liquidité data dans l'écosystème technologique, les équipes data des institutions financières sont alertées des problèmes de qualité potentiels data qui peuvent être résolus pour démontrer avec précision leur exposition au risque.

6. Data Découverte: Lorsqu'une base de données contenant des mesures du comportement des consommateurs est intégrée au catalogue, les capacités de ML classent automatiquement le site data et accélèrent les recherches futures.

Grâce à ces capacités supplémentaires, les entreprises peuvent organiser, visualiser et contextualiser leur site data à grande échelle, ce qui améliore la qualité des informations et accélère le délai de livraison des projets d'analyse qui soutiennent directement la prise de décision au plus haut niveau.

Comment les catalogues ML Data peuvent-ils accélérer l'apprentissage de data ?

La maîtrise des Data , comme indiqué précédemment, est l'étape fondamentale pour devenir une organisation data. Si les consommateurs de data data analystes et scientifiques, décideurs, etc.) ne comprennent pas les data, celles-ci ne valent pas mieux qu'un excès de stockage, ce qui est négatif si l'on considère le coût du stockage des data.

Les catalogues de data alimentés par le ML favorisent la maîtrise des data non seulement en supprimant les obstacles à l'apprentissage des data, mais surtout en les expliquant dans le langage de l'entreprise. Par exemple, les étiquettes de data automatisées peuvent organiser les actifs de data en domaines spécifiques à l'entreprise sur la base de divers éléments, en fournissant un dénominateur commun qu'un ingénieur de data et un cadre des ressources humaines peuvent utiliser. En outre, lorsque les personnes qui ne travaillent data dans le domaine des données sont en mesure d'exploiter les actifs de data pour améliorer leur rendement, elles se tournent vers les data (et le catalogue de data ) la prochaine fois qu'elles sont confrontées à un défi similaire, ce qui crée organiquement une organisation data et data.

Pourquoi il est essentiel, pour réussir, de se familiariser avec le site data et de s'y impliquer ?

Devenir une organisation data est impératif compte tenu de l'évolution rapide de l'environnement commercial d'aujourd'hui. Dans une étude menée par Traci Gusher, leader dans le domaine des data et de l'analyse (D&A), 93 % des entreprises ont indiqué qu'elles continueraient à augmenter "agressivement" leurs investissements dans les capacités de D&A. Cependant, selon Deborah Leff, directrice technique de la science des Data et de l'IA chez IBM, 87 % des projets de science des data ne dépassent jamais la phase de planification, ce qui a un impact négatif sur les ambitions en matière de data .

Compte tenu des investissements considérables réalisés par les entreprises dans tous les secteurs, les gagnants seront ceux qui seront en mesure d'aider leurs parties prenantes à data. La réussite de la mission consistant à s'data a permis d'augmenter l'EBITDA jusqu'à 25 %.

Il est important de comprendre qu'une entreprise ne peut pas devenir data si elle n'a pas d'abord pris les mesures nécessaires pour devenir data. L'autonomisation des personnes avec une source unique de vérité pour leurs data, alimentée par des capacités de ML qui suppriment les tâches manuelles redondantes telles que la cartographie de la lignée, l'attribution de balises et de propriétaires de data , et le profilage des data, stimule la transparence et la confiance.

Data Les catalogues : un élément essentiel de la prise de décision

L'apprentissage automatique a dopé les catalogues de data et les a transformés en un outil essentiel pour les entreprises d'aujourd'hui. La capacité à éliminer les conjectures de la compréhension d'ensembles de données complexes grâce à des actions "intelligentes" cohérentes accroît la transparence, ce qui renforce la confiance dans les actifs de data , entraînant une plus grande utilisation des data, générant de plus grandes perspectives et produisant un produit final de prise de décision data.