Auteur

Tina Chace

Auteur

Akhilesh Kale

Auteur

Robyn Kiernan

Data afkomst begrijpen: De definitie en groeiende adoptie in organisaties verkennen

In de huidige data-driven-wereld is het belangrijker dan ooit om de reis van data te begrijpen, van de oorsprong tot de eindbestemming. Deze mogelijkheid, waarnaar verwezen wordt als data lineage, biedt een uitgebreid beeld van hoe data door een organisatie stroomt, met details over de transformaties en afhankelijkheden onderweg. Data lineage varieert in niveaus van complexiteit, waarbij “grove lineage” de tabel-naar-tabel transformaties laat zien, en “fijne lineage” op attribuutniveau. Deze assets kunnen in kaart worden gebracht in tools zoals Solidatus, wat een geautomatiseerde methode biedt voor het creëren van een duidelijk overzicht van data bronnen, transformatie en gebruik. Bij Artefact ontwerpen en bouwen onze teams dag in dag uit data & AI-producten voor onze klanten, en lineage helpt onze klanten vragen te beantwoorden als: “Welke systemen geven ons dit klantensaldo, omdat het er onnauwkeurig uitziet?” of “Waarom heeft mijn model voor klantkredietneiging juist op woensdag andere resultaten?”. Wij volgen een zorgvuldig gestructureerde methodologie in zes stappen om lineage op schaal in te zetten, te beginnen met een uitgebreide beoordeling van de unieke business use case en de intrinsieke waarde ervan. Dit proces culmineert in een naadloze implementatie, waarbij doorlopend onderhoud en gebruikersadoptie centraal staan.

Chart: Artefact Lineage Approach for better governance and decision-making

Bedrijven maken om verschillende redenen gebruik van data lineage, waarbij naleving van regelgeving en data kwaliteitsbeheer op de voorgrond staan. In de financiële dienstverlening is een robuuste data lineage essentieel om te kunnen voldoen aan strenge auditeisen en principes zoals BCBS 239, om naleving van regelgeving rond governance, data architectuur, risico data aggregatie, nauwkeurigheid, integriteit en frequentie van risicorapportage te waarborgen. Bijvoorbeeld in het geval van Commercial Banking, waar de beoordeling van een Mortgage Financial Reporting Workflow een bedrijf in staat stelt om de herkomst en het verbruik van gevoelige data te traceren.

solidatus Data Map

Als we verder kijken dan compliance, dan is data lineage een krachtig hulpmiddel voor het verbeteren van de data kwaliteit, waarmee organisaties data problemen kunnen opsporen, nauwkeurigheid kunnen valideren en het vertrouwen in hun informatiesystemen kunnen behouden. Dit artikel zal ingaan op de fijne kneepjes van data lineage, specifiek grove lineage, en onderzoeken waarom het een hoeksteen is geworden van moderne data managementstrategieën.

De snelle opkomst van AI in de financiële dienstverlening: Kansen, uitdagingen en de weg vooruit

Voortbouwend op het belang van inzicht in data, transformeert Kunstmatige Intelligentie (AI) het moderne landschap van financiële dienstverlening, waarbij menselijke intelligentie wordt gesimuleerd om taken uit te voeren waarvoor leren en besluitvorming vereist is. De toepassingen van AI zijn divers en invloedrijk: conversatie-AI, zoals chatbots, verbetert klantinteracties; productiviteitsassistenten stroomlijnen workflows en automatiseren taken; en geautomatiseerde data-analyse versnelt inzichten uit complexe data-sets. In augustus 2024 introduceerde de AI-wet van de Europese Unie nieuwe regels om ethisch AI-gebruik te garanderen en gebruikersrechten te beschermen, wat de wereldwijde verschuiving naar verantwoorde AI-implementatie benadrukt. Deze ontwikkeling onderstreept de groeiende noodzaak voor organisaties om niet alleen de kracht van AI te benutten, maar deze ook te beheren met zorgvuldig toezicht, als aanvulling op hun inspanningen op het gebied van data lineage en kwaliteitsbeheer.

Hoewel het gebruik van open-source Generative AI zoals ChatGPT voor persoonlijk gebruik is, is het integreren van AI in een organisatie en het genereren van echte waarde voor het bedrijf een heel ander spelletje. De meeste financiële instellingen zitten in de snelle race om Gen AI-pilots en POC's uit te voeren, maar er wordt pas echt geld in gestoken als bewezen is dat de potentiële voordelen betrouwbaar zijn en het product geschikt is voor zowel zakelijke als technische gebruikers. Veel instellingen hebben nog steeds moeite met het opschalen van deze technologieën vanwege zorgen over de betrouwbaarheid (74%), de acceptatie door gebruikers (60%)(1) en onvoldoende technische expertise (60%). Artefact heeft een schaalbaarheidsraamwerk voor Gen AI ontwikkeld om de belangrijkste schaalbaarheidsdimensies aan te pakken: Relevantie van de output, Verklaarbaarheid, Eerlijkheid/Bias, Latency, Infrastructuur, Organisatorische efficiëntie en Gebruikerservaring/adoptie.

In de context van AI biedt data lineage aanzienlijke zakelijke waarde door transparantie en betrouwbaarheid in data-driven beslissingen te garanderen. Vandaag de dag maakt meer dan 75% van de consumenten zich zorgen over verkeerde informatie van AI(2). AI wordt vaak een “zwarte doos” genoemd, wat betekent dat eindgebruikers vaak niet begrijpen hoe de output die ze regelmatig gebruiken, in elkaar zit. Aangezien AI-systemen steeds meer vertrouwen op enorme en complexe datasets, is het begrijpen van de oorsprong en transformaties van deze data cruciaal voor het behouden van nauwkeurigheid en betrouwbaarheid. Data lineage helpt organisaties bij het traceren en valideren van de data die in AI-modellen wordt ingevoerd, wat essentieel is voor het optimaliseren van de modelprestaties en het aanpakken van problemen zoals vertekening of fouten. Door een duidelijk controlespoor te bieden, ondersteunt data lineage ook de naleving van regelgeving en verbetert het data governance, wat uiteindelijk leidt tot beter geïnformeerde, betrouwbare en ethische AI-toepassingen die betere bedrijfsresultaten opleveren.

Data Lineage in actie: Hoe het de ontwikkeling van echte-wereld-AI had kunnen versnellen

Data lineage is van cruciaal belang om te voldoen aan regelgevende en wettelijke vereisten op het gebied van AI, met name onder beleid zoals de California Consumer Privacy Act (CCPA) en de Gramm-Leach-Bliley Act (GLBA). Neem bijvoorbeeld een use case met betrekking tot het verloop van klanten binnen een financiële dienstverlener. In dit geval had het systeem geen gestandaardiseerde praktijken voor het anonimiseren van privégegevens en geen data lineage om data stromen te volgen. Als gevolg hiervan werd data verrijking om gevoelige details te maskeren als laatste stap uitgevoerd met minimale governance. Deze aanpak bracht niet alleen de data privacy in gevaar, maar stelde het systeem ook bloot aan compliance risico's. Als onze partnerorganisatie een robuuste data lineage in Solidatus had gehad, had de organisatie kunnen volgen waar data werd gebruikt, data transformaties kunnen vastleggen, in elke fase voor de juiste anonimisering kunnen zorgen en effectiever aan de regelgeving kunnen voldoen, waardoor de privacy gewaarborgd was en data governance verbeterd werd.

De meerderheid van de organisaties (80%) beweert dat hun data klaar is voor gebruik in AI, maar meer dan de helft (52%)(3) ervaart problemen met de implementatie op basis van de kwaliteit van hun data. Data lineage is van vitaal belang voor het waarborgen van de kwaliteit van data in AI-ontwikkeling, omdat het een duidelijk beeld geeft van hoe data wordt verkregen, getransformeerd en gebruikt. Bij Artefact, begrijpen we de noodzaak van data gereedheid en kwaliteit. Wij geloven in een AI-operationeel model dat de technische vereisten gelijktijdig ontwikkelt met de data voorbereiding en governance die nodig zijn om grootschalige betrouwbare AI in te zetten. Onze teams werkten aan een kredietrisicovoorspellingsmodel dat op meerdere data tabellen vertrouwde om het kredietnemersrisico te beoordelen. Het team ontdekte tijdens hun voorbereidende onderzoeken inconsistenties tussen deze tabellen, zoals discrepanties in data-indelingen of verouderde informatie. Hierdoor zou het model scheefgetrokken worden en een onnauwkeurige risicobeoordeling gegenereerd worden. Door data lineage te implementeren, kan de organisatie de oorsprong van data achterhalen, vaststellen waar inconsistenties ontstaan en ervoor zorgen dat data transformaties overeenkomen met kwaliteitsstandaarden. Deze transparantie helpt bij het corrigeren van problemen voordat ze van invloed zijn op het model, wat uiteindelijk leidt tot betrouwbaardere en nauwkeurigere voorspellingen en het behoud van de algehele integriteit van het AI-systeem.

Data lineage verbetert het debuggen van AI-modellen, verbeteringen en reproduceerbaarheid door een gedetailleerd overzicht te bieden van de reis van data door het modelleerproces. Als een model onverwachte resultaten oplevert, helpt de data lineage bij het traceren van de data door alle stadia, van verzameling tot voorbewerking en feature engineering. Door deze zichtbaarheid kunnen data wetenschappers identificeren waar problemen of inconsistenties kunnen zijn ontstaan, waardoor nauwkeurig debuggen en gerichte verbeteringen mogelijk worden. Daarnaast is “domeinaanpassing” een veelgebruikte methode om componenten van algoritmen te hergebruiken om de tijd en middelen te beperken die nodig zijn om een AI-model vanaf nul op te bouwen. Lineage is essentieel voor deze reproduceerbaarheid over verschillende iteraties en experimenten heen, omdat het de documentatie en het gebruik van data voor de algoritmen biedt.

Het aandrijven van AI-succes: Hoe Artefact en Solidatus het beheer van Data voor financiële instellingen revolutioneren

Artefact en Solidatus zijn samenwerkingspartners, verenigd in hun overtuiging dat effectief data management essentieel is voor het succes van AI. Akhilesh Kale, een leider bij Artefact in Financial Services, beweert dat “de data-lijn de ruggengraat vormt van het vertrouwen in financiële instellingen en zorgt voor de integriteit die van cruciaal belang is in zo'n uiterst complex landschap dat bepaald wordt door de druk van de regelgeving.” Deze nadruk op data integriteit staat centraal in de manier waarop Artefact's expertise in data en AI uitvoering de gestructureerde omgeving van Solidatus, die helpt bij het beheren en opslaan van grove lineage, aanvult. Samen stellen ze financiële instellingen in staat om de transparantie in bron data voor AI-modellen te verbeteren. Phil Yeoman, voorheen werkzaam bij Cardano, benadrukt: ’Met Solidatus is ons data-landgoed nu in kaart gebracht, gemodelleerd en gecatalogiseerd. In één enkel overzicht kan ik de business laten zien waar hun data zich bevindt, hoe het door systemen en applicaties stroomt, welke data kwaliteitsregels van toepassing zijn en welke data onder GDPR valt.“ Deze naadloze integratie van tools en diensten onderstreept de transformatieve kracht van data lineage voor AI. Het vereenvoudigt het navigeren door compliance, zorgt voor topkwaliteit van data en verbetert de nauwkeurigheid van modellen door data te traceren van oorsprong tot bestemming. Deze traceerbaarheid is van onschatbare waarde voor het voldoen aan regelgevende normen, zoals de CCPA en GLBA, en helpt bij het identificeren van inconsistenties in data die AI-modellen in gevaar kunnen brengen. Bovendien, data afstamming stroomlijnt het debuggen, verbetert de modelprestaties en zorgt voor consistente, betrouwbare resultaten.

Referenties

(1) Prestianni, Timothy. “131 AI-statistieken en trends voor (2024).” Nationale Universiteit, 30 mei 2024. https://www.nu.edu/blog/ai-statistics-trends/.

(2) Matthew Fox, “How Artificial Intelligence Is Shaping Consumer Sentiment,” Forbes, 22 september 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.

(3) Campus Technology, “Rapport: AI-adoptie gehinderd door Data-kwaliteit,” 10 april 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)