Accelerating Data Literacy Using Machine Learning Data Catalogs

Auteur

John Ly

Senior consultant, strategie & Data management, bij Artefact USA

Voordat we machine learning (ML) data catalogi gaan onderzoeken, zullen we eerst definiëren wat een basis data catalogus is: een centrale opslagplaats die metadata opslaat, zoals data bronnen, data formaten, relationele databases en data lineage, en hun respectievelijke eigenaren identificeert. Algemeen beschouwd als de basis van een data-driven organisatie, bevorderen data catalogi bedrijfsbrede data geletterdheid, dienen als een enkele bron van waarheid voor hoe data moet worden geïnterpreteerd en gebruikt in analyses, en bevorderen data als een product door middel van eigendom van data activa.

Terwijl data catalogi bestaan al sinds de jaren 1950, De eerste ML-aangedreven data catalogus, de “Geautomatiseerde Data Catalogus”, werd pas in 2012 geïntroduceerd door bedrijfssoftwarebedrijf Alation. Deze geautomatiseerde catalogi boden mogelijkheden die vandaag de dag vanzelfsprekend lijken, zoals het automatisch vastleggen van metadata, maar ze maakten de weg vrij voor de supercharged ML data catalogi van andere leveranciers, zoals Collibra en Atlan.

Zes kenmerken die u moet zoeken in een ML Data catalogus

1. Geautomatiseerd data markeren: “Thuisadres” wordt automatisch getagd als “PII” en gesorteerd in een beveiligde toegangsbeheerpool en een “Klant” data domein voor consumptie.

2. AI-gestuurd semantisch zoeken: Door te refereren aan de zoekgeschiedenis, voorspelt ML data catalogus zoeken de meest relevante data activa en versnelt het zoeken voor de gebruiker.

3. Geautomatiseerd in kaart brengen van de data-lijn: Legt automatisch transformaties naar een tabel vast vanuit het System of Record (SOR) naar het dashboard dat gebruikt wordt voor bedrijfsconsumptie.

4. Data kwaliteitsverbetering: De ML-catalogus identificeert inconsistente opmaak (bijv. “mei 2023” in plaats van ’20230501“) en geeft suggesties om de data te verbeteren.

5. Geautomatiseerde data profilering: Door de integratie van liquiditeit data in het hele tech-ecosysteem te analyseren, worden data teams bij financiële instellingen gewaarschuwd voor potentiële data kwaliteitsproblemen die opgelost kunnen worden om hun risicoblootstelling nauwkeurig aan te tonen.

6. Data Ontdekking: Wanneer een database met consumentengedraggegevens in de catalogus wordt geïntegreerd, classificeren ML-functies de data automatisch en versnellen ze het ophalen in de toekomst.

Met deze extra mogelijkheden, organisaties kunnen hun data op schaal organiseren, visualiseren en contextualiseren, Het verbeteren van de kwaliteit van inzichten en het versnellen van de levertijd van analytische projecten die de besluitvorming op topniveau direct ondersteunen.

Hoe kan ML Data Catalogs data geletterdheid versnellen?

Data geletterdheid is, zoals eerder gezegd, de fundamentele stap om een data-driven organisatie te worden. Als data consumenten (data analisten en wetenschappers, besluitvormers, etc.) de data niet begrijpen, is het niet beter dan overtollige opslag, een netto negatief effect als je kijkt naar de kosten van het opslaan van data.

ML-aangedreven data catalogi ondersteunen data geletterdheid, niet alleen door het wegnemen van barrières voor het leren over de data, maar nog belangrijker, door het uit te leggen in de taal van het bedrijf. Zo kunnen geautomatiseerde data tags data assets organiseren in bedrijfsspecifieke domeinen gebaseerd op verschillende elementen, waardoor een gemeenschappelijke noemer ontstaat die zowel een data engineer als een HR executive kan gebruiken. Bovendien, wanneer niet-data rollen in staat zijn om gebruik te maken van data middelen om hun output te verbeteren, zullen ze zich wenden tot data (en de data catalogus) de volgende keer dat ze geconfronteerd worden met een soortgelijke uitdaging, op organische wijze een data-geletterde en data-driven-organisatie creëren.

Waarom data-geletterd en -gedreven worden essentieel is voor succes

Een data-driven organisatie worden is noodzakelijk gezien de snel evoluerende aard van de hedendaagse bedrijfsomgeving. In een onderzoek onderzoek uitgevoerd door Traci Gusher, een data en analytics (D&A) leider, gaf 93% van de bedrijven aan dat ze hun investeringen in D&A capaciteiten “agressief” zouden blijven verhogen. Echter, volgens Deborah Leff, CTO van Data Wetenschap en AI bij IBM, 87% van de data wetenschappelijke projecten komen nooit verder dan de planningsfase, wat een negatieve invloed heeft op data ambities.

Bedrijven in alle sectoren doen enorme investeringen, de winnaars zijn degenen die hun belanghebbenden kunnen helpen data-geletterd te worden. Slagen in de missie om data-driven te worden heeft aangetoond toename van EBITDA met maximaal 25%.

Het is belangrijk om te begrijpen dat een bedrijf niet data-driven kan worden tenzij het eerst de nodige stappen heeft genomen om data-geletterd te worden. Mensen voorzien van één enkele bron van de waarheid voor hun data, aangedreven door ML mogelijkheden die overbodige handmatige taken verwijderen, zoals lineage mapping, het toewijzen van data tags en eigenaren, en het profileren van data, vergroot de transparantie en het vertrouwen.

Data Catalogi: een kritisch onderdeel van besluitvorming

Machine learning heeft data catalogi supercharged en omgevormd tot een essentieel hulpmiddel voor het hedendaagse zakelijke landschap. De mogelijkheid om het giswerk uit het begrijpen van complexe datasets te halen door middel van consistente “intelligente” acties, verhoogt de transparantie, wat vervolgens het vertrouwen in data assets vergroot, wat resulteert in een groter gebruik van data, het genereren van grotere inzichten en het produceren van een eindproduct van data-driven besluitvorming.

Neem contact met ons op