Avant d'explorer les catalogues data d'apprentissage automatique (ML), définissons ce qu'est un catalogue data de base : un référentiel central qui stocke les métadata telles que les sources data, les formats data, les bases relationnelles data et la lignée data, et qui identifie leurs propriétaires respectifs. Largement considérés comme le fondement d'une organisation data-driven, les catalogues data favorisent la connaissance de data à l'échelle de l'entreprise, servent de source unique de vérité sur la manière dont data doit être interprétée et utilisée dans l'analyse, et promeuvent data en tant que produit grâce à la propriété des actifs data.
Tandis que Les catalogues data existent depuis les années 50, En revanche, le premier catalogue data alimenté par ML, le “Automated Data Catalog”, n'a été introduit qu'en 2012 par l'éditeur de logiciels d'entreprise Alation. Ces catalogues automatisés offrent des fonctionnalités qui semblent évidentes aujourd'hui, comme la capture automatique de métadata, mais ils ont ouvert la voie aux catalogues ML data suralimentés d'autres fournisseurs, tels que Collibra et Atlan.
Six caractéristiques à rechercher dans un catalogue ML Data
1. Marquage automatisé du data: “L'adresse du domicile est automatiquement étiquetée comme ”PII“ et triée dans un pool de gestion d'accès sécurisé et un domaine ”Client“ data pour la consommation.
2. Recherche sémantique alimentée par l'IA: En se référant à l'historique des recherches, la recherche dans le catalogue ML data prédit l'actif data le plus pertinent et accélère la recherche pour l'utilisateur.
3. Cartographie automatisée de la lignée data: Capture automatiquement les transformations d'une table du système d'enregistrement (SOR) vers le tableau de bord utilisé par l'entreprise.
4. Data amélioration de la qualité: Le catalogue ML identifie des incohérences de formatage (par exemple “May 2023”’ au lieu de “20230501”) et fournit des suggestions pour améliorer le data.
5. Profilage automatisé de la data: En analysant l'intégration des liquidités data dans l'écosystème technologique, les équipes data des institutions financières sont alertées des problèmes de qualité data potentiels qui peuvent être résolus pour démontrer avec précision leur exposition au risque.
6. Data Découverte: Lorsqu'une base data contenant des données sur le comportement des consommateurs est intégrée au catalogue, les capacités de ML classent automatiquement la data et accélèrent les recherches futures.
Avec ces capacités supplémentaires, les organisations peuvent organiser, visualiser et contextualiser leur data à l'échelle, Le programme d'analyse de la qualité de l'information, qui améliore la qualité des informations et accélère le délai de livraison des projets d'analyse qui soutiennent directement la prise de décision au niveau le plus élevé.
Comment les catalogues ML Data peuvent-ils accélérer l'apprentissage de la data ?
La maîtrise du Data, comme indiqué précédemment, est l'étape fondamentale pour devenir une organisation data-driven. Si les consommateurs de data (analystes et scientifiques de data, décideurs, etc.) ne comprennent pas le data, ce n'est pas mieux qu'un excès de stockage, un négatif net si l'on considère le coût du stockage du data.
Les catalogues data alimentés par ML soutiennent l'alphabétisation data non seulement en supprimant les obstacles à l'apprentissage du data, mais surtout en l'expliquant dans le langage de l'entreprise. Par exemple, les étiquettes data automatisées peuvent organiser les actifs data en domaines spécifiques à l'entreprise sur la base de divers éléments, fournissant ainsi un dénominateur commun utilisable à la fois par un ingénieur data et par un responsable des ressources humaines. En outre, lorsque des personnes n'appartenant pas à data sont en mesure d'exploiter les ressources de data pour améliorer leur rendement, elles se tournent vers data (et le catalogue de data) la prochaine fois qu'elles sont confrontées à un défi similaire., La création d'une organisation maîtrisant la data et la data-driven se fait de manière organique.
Pourquoi il est essentiel de se familiariser avec data et d'être motivé pour réussir
Devenir une organisation data-driven est impératif compte tenu de l'évolution rapide de l'environnement commercial d'aujourd'hui. Dans une recherche Selon l'étude menée par Traci Gusher, un leader en matière de data et d'analyse (D&A), 93% des entreprises ont indiqué qu'elles continueraient d'augmenter “agressivement” leurs investissements dans les capacités de D&A. Cependant, selon Deborah Leff, Selon le directeur technique de Data Science and AI chez IBM, 87% des projets scientifiques de data ne dépassent jamais la phase de planification, ce qui a un impact négatif sur les ambitions de data.
Des investissements considérables sont réalisés par des entreprises de tous les secteurs, les gagnants seront ceux qui seront en mesure d'aider leurs parties prenantes à se familiariser avec data. Réussir la mission de devenir data-driven a démontré augmentation de l'EBITDA jusqu'à 25%.
Il est important de comprendre qu'une entreprise ne peut pas devenir data-driven si elle n'a pas d'abord pris les mesures nécessaires pour se familiariser avec data. L'autonomisation des personnes avec une source unique de vérité pour leur data, alimentée par des capacités de ML qui éliminent les tâches manuelles redondantes telles que la cartographie de la lignée, l'attribution de balises et de propriétaires de data, et le profilage de data, stimule la transparence et la confiance.
Data Les catalogues : un élément essentiel de la prise de décision
L'apprentissage automatique a dopé les catalogues data et les a transformés en un outil essentiel dans le paysage commercial d'aujourd'hui. La capacité d'éliminer les conjectures liées à la compréhension d'ensembles data complexes grâce à des actions “intelligentes” cohérentes accroît la transparence, ce qui renforce la confiance dans les actifs data, entraînant une plus grande utilisation de data, générant de meilleures connaissances et produisant un produit final de prise de décision data-driven.

BLOG






