Auteur
Tina Chace
Auteur
Akhilesh Kale
Auteur
Robyn Kiernan
Comprendre Data Lineage : Exploration de sa définition et de son adoption croissante dans les organisations
Dans le monde actuel dirigé par data, la compréhension du parcours de data- de son origine à sa destination finale - est plus cruciale que jamais. Cette capacité, appelée data lineage, fournit une vue d'ensemble de la manière dont data circule dans une organisation, en détaillant ses transformations et ses dépendances en cours de route. Data lineage varie en termes de niveaux de complexité, le "coarse lineage" démontrant les transformations de table à table, et le "fine lineage" se situant au niveau des attributs. Ces actifs peuvent être cartographiés dans des outils tels que Solidatus, fournissant une méthode automatisée pour créer une vue d'ensemble claire des sources, de la transformation et de l'utilisation de data . Chez Artefact, nos équipes conçoivent et construisent des produits data & AI pour nos clients jour après jour, et data , et le lignage aide nos clients à répondre à des questions telles que : "Quels sont les systèmes qui nous donnent ce solde client, car il semble inexact ?" ou "Pourquoi mon modèle de propension à prêter à mes clients donne-t-il des résultats différents, en particulier le mercredi ?" Nous suivons une méthodologie méticuleusement structurée en six étapes pour déployer le lignage à grande échelle, en commençant par une évaluation complète du cas d'utilisation unique de l'entreprise et de sa valeur intrinsèque. Ce processus aboutit à une mise en œuvre transparente, où la maintenance continue et l'adoption par les utilisateurs sont intégrées au cœur de la solution.
Les entreprises s'appuient sur data lineage pour plusieurs raisons clés, la conformité réglementaire et data la gestion de la qualité étant au premier plan. Dans le secteur des services financiers, il est essentiel de disposer d'un solide data lineage pour répondre à des exigences d'audit rigoureuses et à des principes tels que le BCBS 239, afin de garantir le respect des réglementations relatives à la gouvernance, à l'architecture data , à l'agrégation des risques data , à l'exactitude, à l'intégrité et à la fréquence des rapports sur les risques. Par exemple, dans le cas de la banque commerciale, l'évaluation d'un flux de rapports financiers hypothécaires permet à une entreprise de retracer l'origine et la consommation de données sensibles data.
Au-delà de la conformité, data lineage est un outil puissant pour améliorer la qualité data , permettant aux organisations de suivre les problèmes data , de valider l'exactitude et de maintenir la confiance dans leurs systèmes d'information. Cet article se penche sur les subtilités du lignage data , en particulier du lignage grossier, et explore les raisons pour lesquelles il est devenu la pierre angulaire des stratégies de gestion modernes data .
L'essor rapide de l'IA dans les services financiers : Opportunités, défis et perspectives
S'appuyant sur l'importance de comprendre data, l'intelligence artificielle (IA) transforme le paysage des services financiers modernes, en simulant l'intelligence humaine pour effectuer des tâches nécessitant un apprentissage et une prise de décision. Les applications de l'IA sont diverses et ont un impact : l'IA conversationnelle, comme les chatbots, améliore les interactions avec les clients ; les assistants de productivité rationalisent les flux de travail et automatisent les tâches ; et l'analyse automatisée data accélère l'obtention d'informations à partir d'ensembles de données complexes. En août 2024, la loi sur l'IA de l'Union européenne a introduit de nouvelles réglementations visant à garantir une utilisation éthique de l'IA et à protéger les droits des utilisateurs, soulignant l'évolution mondiale vers une mise en œuvre responsable de l'IA. Cette évolution souligne la nécessité croissante pour les organisations non seulement d'exploiter la puissance de l'IA, mais aussi de la gérer avec une surveillance attentive, en complément de leurs efforts sur data lineage et la gestion de la qualité.
Si l'utilisation de l'IA générative open-source comme ChatGPT est possible pour un usage personnel, l'intégration de l'IA dans une organisation et la génération d'une valeur réelle pour l'entreprise est une autre paire de manches. La plupart des institutions financières sont engagées dans une course effrénée à la production de pilotes et de POC d'IA générative, mais elles n'engagent des fonds réels que lorsqu'elles sont convaincues que les avantages potentiels sont fiables et que le produit convient à la fois aux utilisateurs professionnels et aux utilisateurs techniques. De nombreuses institutions ont encore du mal à faire évoluer ces technologies en raison de préoccupations concernant la fiabilité (74 %), l'adoption par les utilisateurs (60 %)(1) et l'insuffisance de l'expertise technique (60 %). Un cadre d'évolutivité de Gen AI a été élaboré par Artefact pour traiter les dimensions essentielles de l'évolutivité : Pertinence des résultats, explicabilité, équité/préjugés, latence, infrastructure, efficacité organisationnelle et expérience/adoption par l'utilisateur.
Dans le contexte de l'IA, data lineage offre une valeur commerciale significative en garantissant la transparence et la fiabilité des décisions basées sur data. Aujourd'hui, plus de 75 % des consommateurs s'inquiètent des informations erronées fournies par l'IA(2). L'IA est souvent qualifiée de "boîte noire", ce qui signifie que les utilisateurs finaux ne comprennent souvent pas les rouages qui produisent les résultats qu'ils utilisent régulièrement. Les systèmes d'IA reposant de plus en plus sur des ensembles de données vastes et complexes, il est essentiel de comprendre les origines et les transformations de ce site data pour maintenir la précision et la fiabilité. Data lineage aide les organisations à suivre et à valider le site data qui alimente les modèles d'IA, ce qui est essentiel pour optimiser les performances des modèles et résoudre des problèmes tels que les biais ou les erreurs. En fournissant une piste d'audit claire, data lineage favorise également la conformité aux réglementations et améliore data la gouvernance, ce qui conduit finalement à des applications d'IA plus informées, plus fiables et plus éthiques qui génèrent de meilleurs résultats pour l'entreprise.
Data La lignée en action : Comment il aurait pu stimuler le développement de l'IA dans le monde réel
Data est essentielle pour répondre aux exigences réglementaires et légales en matière d'IA, en particulier dans le cadre de politiques telles que la loi californienne sur la protection de la vie privée des consommateurs (California Consumer Privacy Act, CCPA) et la loi Gramm-Leach-Bliley (Gramm-Leach-Bliley Act, GLBA). Prenons l'exemple d'un cas d'utilisation concernant la rotation des clients au sein d'une entreprise de services financiers. Dans ce cas, le système ne disposait pas de pratiques normalisées pour rendre anonymes les informations privées ni de data lineage pour suivre les flux de data . Par conséquent, l'enrichissement de data pour masquer les détails sensibles a été effectué en dernière étape avec une gouvernance minimale. Cette approche compromettait non seulement la confidentialité de data mais exposait également le système à des risques de non-conformité. Si notre organisation partenaire avait disposé d'une solide base de données data dans Solidatus, elle aurait pu savoir où data était utilisé, capturer les transformations data , garantir une anonymisation correcte à chaque étape et répondre plus efficacement aux exigences réglementaires, protégeant ainsi la vie privée et améliorant la gouvernance data .
La majorité des organisations (80 %) ont déclaré que leur data était prêt à être utilisé dans l'IA, mais plus de la moitié (52 %)(3) ont rencontré des problèmes de mise en œuvre en raison de la qualité de leur data. Data lineage est essentiel pour garantir data la qualité dans le développement de l'IA, car il fournit une vision claire de la façon dont data est sourcé, transformé et utilisé. À Artefact, nous comprenons l'impératif de data préparation et de qualité. Nous croyons en un modèle d'exploitation de l'IA qui développe les exigences techniques en même temps que data la préparation et la gouvernance requises pour déployer une IA fiable à grande échelle. Nos équipes ont travaillé sur un modèle de prédiction du risque de crédit qui s'appuyait sur plusieurs tableaux data pour évaluer le risque de l'emprunteur. L'équipe a découvert des incohérences entre ces tableaux lors de ses investigations préliminaires, telles que des divergences dans les formats data ou des informations obsolètes. Ces incohérences faussaient le modèle et entraînaient une évaluation inexacte du risque. En mettant en œuvre le système de lignage data , l'organisation pourrait retracer les origines de data, identifier les incohérences et s'assurer que les transformations data sont conformes aux normes de qualité. Cette transparence permet de corriger les problèmes avant qu'ils n'aient un impact sur le modèle, ce qui permet d'obtenir des prévisions plus fiables et plus précises et de maintenir l'intégrité globale du système d'IA.
Data lineage améliore le débogage, l'amélioration et la reproductibilité des modèles d'IA en offrant une vue détaillée de data's journey through the modeling process. Si un modèle produit des résultats inattendus, data lineage permet de retracer le site data à travers toutes les étapes, de la collecte au prétraitement et à l'ingénierie des fonctionnalités. Cette visibilité permet aux scientifiques de data d'identifier l'origine des problèmes ou des incohérences, ce qui facilite un débogage précis et des améliorations ciblées. En outre, l'"adaptation au domaine" est une méthode courante pour réutiliser les composants des algorithmes afin de réduire le temps et les ressources nécessaires pour construire un modèle d'IA à partir de zéro. Le lignage est essentiel à cette reproductibilité entre les différentes itérations et expériences, car il fournit la documentation et l'utilisation de data pour les algorithmes.
La réussite de l'IA : Comment Artefact et Solidatus révolutionnent la gestion de Data pour les institutions financières
Artefact et Solidatus sont des partenaires collaboratifs, unis dans leur conviction qu'une gestion efficace de data est essentielle au succès de l'IA. Akhilesh Kale, l'un des dirigeants de Artefact dans le secteur des services financiers, affirme que "data est l'épine dorsale de la confiance dans les institutions financières, fournissant l'intégrité qui est essentielle dans un paysage aussi complexe défini par ses pressions réglementaires ". L'accent mis sur l'intégrité data est au cœur de la façon dont l'expertise de Artefacten matière d'exécution data et d'IA complète l'environnement structuré de Solidatus, qui aide à gérer et à stocker le lignage grossier. Ensemble, ils permettent aux institutions financières d'améliorer la transparence de la source data pour les modèles d'IA. Comme le souligne Phil Yeoman, anciennement chez Cardano, "avec Solidatus, notre domaine data est désormais cartographié, modélisé et catalogué. En une seule vue, je peux montrer aux entreprises où réside leur data , comment il circule dans les systèmes et les applications, quelles sont les règles de qualité de data Postuler et quelles data sont soumises au GDPR." Cette intégration transparente des outils et des services souligne le pouvoir de transformation de data lineage for AI. Elle simplifie la mise en conformité, assure une qualité de premier ordre à data et améliore la précision des modèles en retraçant data de l'origine à la destination. Cette traçabilité est inestimable pour respecter les normes réglementaires, telles que la CCPA et la GLBA, tout en aidant à identifier les incohérences de data qui pourraient compromettre les modèles d'IA. En outre, data lineage rationalise le débogage, stimule les performances du modèle et garantit des résultats cohérents et fiables.
Références
(1) Prestianni, Timothy. "131 Statistiques et tendances de l'IA pour (2024)". Université nationale, 30 mai 2024. https://www.nu.edu/blog/ai-statistics-trends/.
(2) Matthew Fox, "How Artificial Intelligence Is Shaping Consumer Sentiment", Forbes, 22 septembre 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.
(3) Campus Technology, "Report : AI Adoption Hindered by Data Quality", 10 avril 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data -Quality .aspx#:~:text=Organisations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)