Auteur
Tina Chace
Auteur
Akhilesh Kale
Auteur
Robyn Kiernan
Data Lineage begrijpen: Het verkennen van de definitie en groeiende adoptie in organisaties
In de huidige data-gedreven wereld is het begrijpen van de reis van data- van de oorsprong tot de eindbestemming- crucialer dan ooit. Deze mogelijkheid, die data lineage wordt genoemd, biedt een uitgebreid beeld van hoe data door een organisatie stroomt, met details over de transformaties en afhankelijkheden onderweg. Data lineage varieert in termen van complexiteit, waarbij de "grove lineage" de transformaties van tabel naar tabel laat zien en de "fijne lineage" op attribuutniveau ligt. Deze assets kunnen in kaart worden gebracht in tools zoals Solidatus, waardoor een geautomatiseerde methode ontstaat voor het maken van een duidelijk overzicht van data bronnen, transformatie en gebruik. Bij Artefact ontwerpen en bouwen onze teams dag in dag uit data & AI producten voor onze klanten en data lineage helpt onze klanten vragen te beantwoorden als: "Welke systemen geven ons dit klantensaldo, omdat het er onnauwkeurig uitziet?" of "Waarom heeft mijn model voor klantleningen juist op woensdag andere resultaten?". We volgen een zorgvuldig gestructureerde methodologie in zes stappen voor het inzetten van lineage op schaal, te beginnen met een uitgebreide beoordeling van de unieke business use case en de intrinsieke waarde ervan. Dit proces culmineert in een naadloze implementatie, waarbij doorlopend onderhoud en gebruikersadoptie centraal staan.
Bedrijven maken om verschillende redenen gebruik van data lineage, waarbij naleving van regelgeving en data kwaliteitsbeheer op de voorgrond staan. In de financiële dienstverlening is een robuuste data lineage essentieel om te voldoen aan strenge auditeisen en principes zoals BCBS 239, om naleving van de regelgeving rond governance, data architectuur, risico data aggregatie, nauwkeurigheid, integriteit en frequentie van risicorapportage te waarborgen. Bijvoorbeeld in het geval van Commercial Banking, waar de beoordeling van een Mortgage Financial Reporting Workflow het mogelijk maakt organisatie om de herkomst en het gebruik van gevoelige data te traceren.
Als we verder kijken dan naleving, is data lineage een krachtig hulpmiddel voor het verbeteren van data kwaliteit, waarmee organisaties data problemen kunnen opsporen, nauwkeurigheid kunnen valideren en het vertrouwen in hun informatiesystemen kunnen behouden. Dit artikel gaat dieper in op de complexiteit van data lineage, met name grove lineage, en onderzoekt waarom het een hoeksteen is geworden van moderne data beheerstrategieën.
AIDe snelle opkomst van financiële diensten: Kansen, uitdagingen en de weg vooruit
Voortbouwend op het belang van begrip data transformeert Artificial Intelligence (AI) het moderne landschap van de financiële dienstverlening, waarbij menselijke intelligentie wordt gesimuleerd om taken uit te voeren waarvoor leren en besluitvorming vereist is. AIDe toepassingen zijn divers en impactvol: conversatie AI, zoals chatbots, verbetert klantinteracties; productiviteitsassistenten stroomlijnen workflows en automatiseren taken; en geautomatiseerde data analyse versnelt inzichten uit complexe datasets. In augustus 2024 introduceerde de AI Act van de Europese Unie nieuwe regels die gericht zijn op het waarborgen van ethisch AI gebruik en het beschermen van gebruikersrechten, wat de wereldwijde verschuiving naar verantwoorde AI implementatie benadrukt. Deze ontwikkeling onderstreept de groeiende behoefte van organisaties om niet alleen de kracht van AIte benutten, maar deze ook te beheren met zorgvuldig toezicht, als aanvulling op hun inspanningen op het gebied van data afstamming en kwaliteitsbeheer.
Hoewel het gebruik van open-source Generative AI zoals ChatGPT voor persoonlijk gebruik is, is de integratie van AI in een organisatie en het genereren van echte waarde voor het bedrijf een ander spel. De meeste financiële instellingen zitten in de snelle race om Gen AI pilots en POC's uit te voeren, maar er wordt pas echt geld in gestoken als bewezen is dat de potentiële voordelen betrouwbaar zijn en het product geschikt is voor zowel zakelijke als technische gebruikers. Veel instellingen worstelen nog steeds met het opschalen van deze technologieën vanwege zorgen over de betrouwbaarheid (74%), de acceptatie door gebruikers (60%)(1) en onvoldoende technische expertise (60%). Een Gen AI schaalbaarheidsraamwerk is wat is gebouwd door Artefact om de kerndimensies van schaalbaarheid aan te pakken: Relevantie van de output, Verklaarbaarheid, Eerlijkheid/Bias, Latency, Infrastructuur, Organisatorische efficiëntie en Gebruikerservaring/adoptie.
In de context van AI, data lineage services aanzienlijke zakelijke waarde door te zorgen voor transparantie en betrouwbaarheid in data-gestuurde beslissingen. Vandaag de dag is meer dan 75% van de consumenten bezorgd over verkeerde informatie van AI(2). AI wordt vaak een "zwarte doos" genoemd, wat betekent dat eindgebruikers vaak niet begrijpen hoe de output die ze regelmatig gebruiken, in elkaar zit. Omdat AI systemen steeds meer gebruik maken van enorme en complexe datasets, is inzicht in de oorsprong en transformaties van deze data cruciaal voor het handhaven van nauwkeurigheid en betrouwbaarheid. Data lineage helpt organisaties bij het traceren en valideren van de data die wordt ingevoerd in AI modellen, wat essentieel is voor het optimaliseren van de modelprestaties en het aanpakken van problemen zoals vertekening of fouten. Door een duidelijk controlespoor te bieden, ondersteunt data lineage ook de naleving van regelgeving en verbetert data governance, wat uiteindelijk leidt tot beter geïnformeerde, betrouwbare en ethische AI toepassingen die betere bedrijfsresultaten opleveren.
Data Lineage in actie: Hoe het de ontwikkeling in de echte wereld had kunnen versnellen: AI
Data lineage is van cruciaal belang om te voldoen aan regelgevende en wettelijke vereisten in AI, vooral onder beleidsregels zoals de California Consumer Privacy Act (CCPA) en de Gramm-Leach-Bliley Act (GLBA). Neem bijvoorbeeld een use case met betrekking tot klantverloop binnen een financiële dienstverlener. In dit geval had het systeem geen gestandaardiseerde praktijken voor het anonimiseren van privégegevens en geen data lineage om data stromen te volgen. Als gevolg hiervan werd data verrijking om gevoelige details te maskeren als laatste stap uitgevoerd met minimale controle. Deze aanpak bracht niet alleen data privacy in gevaar, maar stelde het systeem ook bloot aan compliance risico's. Als onze partnerorganisatie een robuuste data lineage in Solidatus had gehad, had de organisatie kunnen volgen waar data werd gebruikt, had ze data transformaties kunnen vastleggen, had ze in elke fase voor de juiste anonimisering kunnen zorgen en had ze effectiever aan de wettelijke vereisten kunnen voldoen, waardoor de privacy was gewaarborgd en de data governance was verbeterd.
De meerderheid van de organisaties (80%) beweert dat hun data klaar is voor gebruik in AI, maar meer dan de helft (52%)(3) ondervond problemen met de implementatie op basis van de kwaliteit van hun data. Data lineage is van vitaal belang voor het waarborgen van data kwaliteit in AI ontwikkeling, omdat het een duidelijk beeld geeft van hoe data is verkregen, getransformeerd en gebruikt. Bij Artefact begrijpen we de noodzaak van data gereedheid en kwaliteit. Wij geloven in een AI operationeel model dat de technische vereisten gelijktijdig ontwikkelt met de data voorbereiding en governance die nodig zijn om op grote schaal betrouwbare AI te implementeren. Onze teams werkten aan een model voor het voorspellen van kredietrisico's dat gebaseerd was op meerdere data tabellen om het risico van kredietnemers te beoordelen. Het team ontdekte inconsistenties tussen deze tabellen tijdens hun voorbereidend onderzoek, zoals discrepanties in data formaten of verouderde informatie. Hierdoor zou het model scheefgetrokken worden en een onnauwkeurige risicobeoordeling worden gegenereerd. Door data lineage te implementeren, kan de organisatie de oorsprong van data traceren, vaststellen waar inconsistenties ontstaan en ervoor zorgen dat data transformaties overeenkomen met kwaliteitsstandaarden. Deze transparantie helpt bij het corrigeren van problemen voordat ze invloed hebben op het model, wat uiteindelijk leidt tot betrouwbaardere en nauwkeurigere voorspellingen en het behoud van de algehele integriteit van het AI systeem.
Data lineage verbetert het debuggen van AI modellen, verbeteringen en reproduceerbaarheid door een gedetailleerd overzicht te bieden van data's reis door het modelleerproces. Als een model onverwachte resultaten oplevert, helpt data lineage bij het traceren van data door alle stadia, van verzamelen tot preprocessing en feature engineering. Deze zichtbaarheid stelt data wetenschappers in staat om te identificeren waar problemen of inconsistenties kunnen zijn ontstaan, waardoor nauwkeurig debuggen en gerichte verbeteringen mogelijk worden. Daarnaast is "domeinaanpassing" een veelgebruikte methode om componenten van algoritmen te hergebruiken om de tijd en middelen te beperken die nodig zijn om een AI model vanaf nul op te bouwen. Lineage is essentieel voor deze reproduceerbaarheid over verschillende iteraties en experimenten heen, omdat het de documentatie en het gebruik van data voor de algoritmen biedt.
Aanjagen van AI succes: Hoe Artefact en Solidatus het beheer van Data voor financiële instellingen revolutioneren.
Artefact en Solidatus zijn samenwerkingspartners, verenigd in hun overtuiging dat effectief data beheer essentieel is voor het succes van AI. Akhilesh Kale, een leider bij Artefact in Financial Services, beweert dat "data lineage de ruggengraat is van het vertrouwen in financiële instellingen, door die integriteit te bieden die cruciaal is in zo'n uiterst complex landschap dat wordt bepaald door de druk van de regelgeving." Deze nadruk op data integriteit staat centraal in de manier waarop Artefact's expertise in data en AI uitvoering een aanvulling vormt op de gestructureerde omgeving van Solidatus, die helpt bij het beheren en opslaan van grove lineage. Samen stellen ze financiële instellingen in staat om de transparantie in de bron data voor AI modellen te verbeteren. Phil Yeoman, voorheen werkzaam bij Cardano, benadrukt: "Met Solidatus is ons data landgoed nu in kaart gebracht, gemodelleerd en gecatalogiseerd. In één overzicht kan ik de business laten zien waar hun data zich bevindt, hoe het door systemen en applicaties stroomt, welke data kwaliteitsregels van toepassing zijn en welke data onder GDPR valt." Deze naadloze integratie van tools en services onderstreept de transformatieve kracht van data lineage voor AI. Het vereenvoudigt het navigeren door compliance, garandeert topkwaliteit data en verbetert de nauwkeurigheid van modellen door data te traceren van oorsprong tot bestemming. Deze traceerbaarheid is van onschatbare waarde voor het voldoen aan wettelijke normen, zoals de CCPA en GLBA, terwijl het ook helpt bij het identificeren van data inconsistenties die AI modellen in gevaar kunnen brengen. Bovendien stroomlijnt data lineage het debuggen, verbetert het de modelprestaties en zorgt het voor consistente, betrouwbare resultaten.
Referenties
(1) Prestianni, Timothy. "131 AI Statistieken en Trends voor (2024)." Nationale Universiteit, 30 mei 2024. https://www.nu.edu/blog/ai-statistics-trends/.
(2) Matthew Fox, "How Artificial Intelligence Is Shaping Consumer Sentiment," Forbes, 22 september 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.
(3) Campus Technology, "Report: AI Adoption Hindered by Data Quality," 10 april 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI -Adoption-Hindered-by- Data-Quality .aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)