Auteur

Tina Chace

Auteur

Akhilesh Kale

Auteur

Robyn Kiernan

Comprendre la lignée Data : Explorer sa définition et son adoption croissante dans les organisations

Dans le monde actuel du data-driven, il est plus important que jamais de comprendre le parcours du data, de son origine à sa destination finale. Cette capacité, appelée lignage de data, offre une vue d'ensemble de la manière dont data circule dans une organisation, en détaillant ses transformations et ses dépendances tout au long du parcours. Le lignage de Data varie en termes de niveaux de complexité, le “lignage grossier” démontrant les transformations de table à table, et le “lignage fin” se situant au niveau de l'attribut. Ces actifs peuvent être cartographiés dans des outils tels que Solidatus, fournissant une méthode automatisée pour créer une vue d'ensemble claire des sources, de la transformation et de l'utilisation de data. Chez Artefact, nos équipes conçoivent et construisent des produits data et IA pour nos clients, jour après jour, et le lignage aide nos clients à répondre à des questions telles que : “Quels sont les systèmes qui nous donnent ce solde client, car il semble inexact ?” ou “Pourquoi mon modèle de propension à prêter à mes clients donne-t-il des résultats différents, en particulier le mercredi ?” Nous suivons une méthodologie méticuleusement structurée en six étapes pour déployer le lignage à grande échelle, en commençant par une évaluation complète du cas d'utilisation unique de l'entreprise et de sa valeur intrinsèque. Ce processus aboutit à une mise en œuvre transparente, où la maintenance continue et l'adoption par les utilisateurs sont intégrées au cœur de la solution.

Chart: Artefact Lineage Approach for better governance and decision-making

Les entreprises s'appuient sur le lignage data pour plusieurs raisons essentielles, la conformité réglementaire et la gestion de la qualité data étant au premier plan. Dans le secteur des services financiers, un lignage data robuste est essentiel pour répondre à des exigences d'audit rigoureuses et à des principes tels que le BCBS 239, garantissant le respect des réglementations relatives à la gouvernance, à l'architecture data, à l'agrégation des risques data, à l'exactitude, à l'intégrité et à la fréquence des rapports sur les risques. Par exemple, dans le cas de la banque commerciale, l'évaluation d'un flux de rapports financiers sur les prêts hypothécaires permet à une entreprise de retracer les origines et la consommation de données sensibles.

solidatus Data Map

Au-delà de la conformité, le lignage de data est un outil puissant pour améliorer la qualité de data, permettant aux organisations de suivre les problèmes de data, de valider l'exactitude et de maintenir la confiance dans leurs systèmes d'information. Cet article se penche sur les subtilités du lignage data, en particulier le lignage grossier, et explore les raisons pour lesquelles il est devenu la pierre angulaire des stratégies modernes de gestion du data.

L'essor rapide de l'IA dans les services financiers : Opportunités, défis et perspectives

S'appuyant sur l'importance de comprendre data, l'intelligence artificielle (IA) transforme le paysage des services financiers modernes, en simulant l'intelligence humaine pour effectuer des tâches nécessitant un apprentissage et une prise de décision. Les applications de l'IA sont diverses et impactantes : l'IA conversationnelle, comme les chatbots, améliore les interactions avec les clients ; les assistants de productivité rationalisent les flux de travail et automatisent les tâches ; et l'analyse automatisée des data accélère la compréhension d'ensembles de data complexes. En août 2024, la loi sur l'IA de l'Union européenne a introduit de nouvelles réglementations visant à garantir une utilisation éthique de l'IA et à protéger les droits des utilisateurs, soulignant l'évolution mondiale vers une mise en œuvre responsable de l'IA. Cette évolution souligne la nécessité croissante pour les organisations non seulement d'exploiter la puissance de l'IA, mais aussi de la gérer avec une surveillance attentive, en complément de leurs efforts en matière de lignage data et de gestion de la qualité.

Si l'utilisation de l'IA générative open-source comme ChatGPT est possible pour un usage personnel, l'intégration de l'IA dans une organisation et la génération d'une valeur réelle pour l'entreprise est une autre paire de manches. La plupart des institutions financières sont engagées dans une course effrénée à la production de pilotes et de POC d'IA générative, mais elles n'engagent des fonds réels que lorsqu'elles sont convaincues que les avantages potentiels sont fiables et que le produit convient à la fois aux utilisateurs professionnels et aux utilisateurs techniques. De nombreuses institutions ont encore du mal à faire évoluer ces technologies en raison de préoccupations concernant la fiabilité (74%), l'adoption par les utilisateurs (60%)(1) et l'insuffisance de l'expertise technique (60%). Un cadre d'évolutivité de l'IA générique a été élaboré par Artefact afin de prendre en compte les dimensions essentielles de l'évolutivité : Pertinence des résultats, explicabilité, équité/préjugés, latence, infrastructure, efficacité organisationnelle et expérience/adoption par l'utilisateur.

Dans le contexte de l'IA, la lignée data offre une valeur commerciale significative en garantissant la transparence et la fiabilité des décisions data-driven. Aujourd'hui, plus de 75% des consommateurs s'inquiètent des informations erronées fournies par l'IA(2). L'IA est souvent qualifiée de “boîte noire”, ce qui signifie que les utilisateurs finaux ne comprennent souvent pas les rouages qui produisent les résultats qu'ils utilisent régulièrement. Les systèmes d'IA reposant de plus en plus sur des ensembles de data vastes et complexes, il est essentiel de comprendre les origines et les transformations de ces data pour préserver l'exactitude et la fiabilité des données. La lignée de Data aide les organisations à suivre et à valider les data qui alimentent les modèles d'IA, ce qui est essentiel pour optimiser les performances des modèles et résoudre des problèmes tels que les biais ou les erreurs. En fournissant une piste d'audit claire, le lignage data favorise également la conformité aux réglementations et améliore le data governance, ce qui conduit finalement à des applications d'IA plus informées, plus fiables et plus éthiques qui génèrent de meilleurs résultats pour l'entreprise.

La lignée Data en action : Comment il aurait pu stimuler le développement de l'IA dans le monde réel

La lignée Data est essentielle pour répondre aux exigences réglementaires et légales en matière d'IA, en particulier dans le cadre de politiques telles que la loi californienne sur la protection de la vie privée des consommateurs (California Consumer Privacy Act, CCPA) et la loi Gramm-Leach-Bliley (Gramm-Leach-Bliley Act, GLBA). Prenons l'exemple d'un cas d'utilisation concernant la rotation des clients au sein d'une entreprise de services financiers. Dans ce cas, le système ne disposait pas de pratiques normalisées pour rendre anonymes les informations privées et n'avait pas de lignée data pour suivre les flux data. Par conséquent, l'enrichissement de data pour masquer les détails sensibles a été effectué en dernière étape avec une gouvernance minimale. Cette approche compromettait non seulement la confidentialité des données data, mais exposait également le système à des risques de non-conformité. Si notre organisation partenaire avait disposé d'une solide base de données data dans Solidatus, elle aurait pu savoir où le data était utilisé, capturer les transformations data, garantir une anonymisation correcte à chaque étape et répondre plus efficacement aux exigences réglementaires, protégeant ainsi la vie privée et améliorant le data governance.

La majorité des organisations (80%) ont affirmé que leur data était prête à être utilisée dans l'IA, mais plus de la moitié (52%)(3) ont rencontré des problèmes de mise en œuvre en raison de la qualité de leur data. La lignée de Data est essentielle pour garantir la qualité de data dans le développement de l'IA, car elle fournit une vision claire de la manière dont data est obtenue, transformée et utilisée. Chez Artefact, nous comprenons l'impératif de préparation et de qualité de data. Nous croyons en un modèle d'exploitation de l'IA qui développe les exigences techniques en même temps que la préparation et la gouvernance de data nécessaires au déploiement d'une IA fiable à grande échelle. Nos équipes ont travaillé sur un modèle de prédiction du risque de crédit qui s'appuyait sur plusieurs tables data pour évaluer le risque de l'emprunteur. L'équipe a découvert des incohérences entre ces tables lors de ses investigations préliminaires, telles que des divergences dans les formats data ou des informations obsolètes. Ces incohérences auraient pour effet de fausser le modèle et de générer une évaluation inexacte du risque. En mettant en œuvre le lignage de data, l'organisation pourrait retracer les origines de data, identifier les incohérences et s'assurer que les transformations de data s'alignent sur les normes de qualité. Cette transparence permet de corriger les problèmes avant qu'ils n'aient un impact sur le modèle, ce qui permet d'obtenir des prévisions plus fiables et plus précises et de maintenir l'intégrité globale du système d'IA.

Le lignage de Data améliore le débogage, l'amélioration et la reproductibilité des modèles d'IA en offrant une vue détaillée du parcours de data tout au long du processus de modélisation. Si un modèle produit des résultats inattendus, data lineage permet de retracer la data à travers toutes les étapes, de la collecte au prétraitement et à l'ingénierie des fonctionnalités. Cette visibilité permet aux scientifiques de data d'identifier l'origine des problèmes ou des incohérences, ce qui facilite un débogage précis et des améliorations ciblées. En outre, l“”adaptation au domaine" est une méthode courante qui consiste à réutiliser des composants d'algorithmes afin de réduire le temps et les ressources nécessaires à l'élaboration d'un modèle d'IA à partir de zéro. Le lignage est essentiel à cette reproductibilité entre les différentes itérations et expériences, car il fournit la documentation et l'utilisation de data pour les algorithmes.

La réussite de l'IA : Comment Artefact et Solidatus révolutionnent la gestion Data des institutions financières

Artefact et Solidatus sont des partenaires collaboratifs, unis dans leur conviction qu'une gestion efficace de data est essentielle au succès de l'IA. Akhilesh Kale, l'un des responsables de Artefact dans le secteur des services financiers, affirme que “la lignée data est l'épine dorsale de la confiance dans les institutions financières, fournissant cette intégrité qui est essentielle dans un paysage aussi complexe défini par ses pressions réglementaires”. L'accent mis sur l'intégrité de data est au cœur de la manière dont l'expertise de Artefact en matière d'exécution de data et d'IA complète l'environnement structuré de Solidatus, qui aide à gérer et à stocker la lignée grossière. Ensemble, ils permettent aux institutions financières d'améliorer la transparence de la source data pour les modèles d'IA. Comme le souligne Phil Yeoman, anciennement chez Cardano, ’avec Solidatus, notre patrimoine data est désormais cartographié, modélisé et catalogué. En une seule vue, je peux montrer aux entreprises où résident leurs data, comment elles circulent dans les systèmes et les applications, quelles règles de qualité data s'appliquent et quelles data sont soumises au GDPR.“ Cette intégration transparente des outils et des services souligne le pouvoir de transformation de la lignée data pour l'IA. Elle simplifie la mise en conformité, garantit une qualité de data de premier ordre et améliore la précision des modèles en traçant data de l'origine à la destination. Cette traçabilité est inestimable pour répondre aux normes réglementaires, telles que la CCPA et la GLBA, tout en aidant à identifier les incohérences de data qui pourraient compromettre les modèles d'IA. En outre, Lignée data simplifie le débogage, améliore les performances des modèles et garantit des résultats cohérents et fiables.

Références

(1) Prestianni, Timothy. “131 Statistiques et tendances de l'IA pour (2024)”. Université nationale, 30 mai 2024. https://www.nu.edu/blog/ai-statistics-trends/.

(2) Matthew Fox, “How Artificial Intelligence Is Shaping Consumer Sentiment”, Forbes, 22 septembre 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.

(3) Campus Technology, “Report : AI Adoption Hindered by Data Quality”, 10 avril 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)