Voordat we machine learning (ML) data gaan verkennen, moeten we eerst definiëren wat een basis data is: een centrale opslagplaats waarin metadata zoals data , data , relationele databases en data lineage worden opgeslagen en de respectievelijke eigenaren worden geïdentificeerd. data worden algemeen beschouwd als de basis van een data organisatie. Ze bevorderen bedrijfsbrede data , dienen als een enkele bron van waarheid voor de manier waarop data moeten worden geïnterpreteerd en gebruikt in analyses en promoten data als een product door het eigenaarschap van data .

Hoewel data catalogi al bestaan sinds de jaren 1950, werd de eerste ML-aangedreven data catalogus, de "Automated Data Catalog", pas in 2012 geïntroduceerd door bedrijfssoftwarebedrijf Alation. Deze geautomatiseerde catalogi maakten mogelijkheden mogelijk die vandaag de dag vanzelfsprekend lijken, zoals het automatisch vastleggen van metadata, maar ze maakten de weg vrij voor de supercharged ML data catalogi van andere leveranciers, zoals Collibra en Atlan.

Zes functies die u moet zoeken in een ML Data catalogus

1. Geautomatiseerde data tagging: "Thuisadres" wordt automatisch getagd als "PII" en gesorteerd in een beveiligde toegangsbeheerpool en een "Klant" data domein voor gebruik.

2. AI-aangedreven semantisch zoeken: Door te refereren aan de zoekgeschiedenis, voorspelt ML data catalogus zoeken de meest relevante data asset en versnelt het zoeken voor de gebruiker.

3. Geautomatiseerde data lineage mapping: Legt automatisch transformaties naar een tabel vast vanuit het System of Record (SOR) naar het dashboard dat wordt gebruikt voor bedrijfsconsumptie.

4. Data kwaliteitsverbetering: De ML-catalogus identificeert inconsistente opmaak (bijv. "mei 2023" in plaats van "20230501") en geeft suggesties om de data te verbeteren.

5. Geautomatiseerde data profilering: Door de integratie van liquiditeit data in het hele tech-ecosysteem te analyseren, worden data teams bij financiële instellingen gewaarschuwd voor potentiële data kwaliteitsproblemen die kunnen worden opgelost om hun risicoblootstelling nauwkeurig aan te tonen.

6. Data Ontdekken: Als een database met statistieken over consumentengedrag wordt geïntegreerd in de catalogus, classificeren ML-mogelijkheden automatisch de data en kunnen ze in de toekomst sneller worden gevonden.

Met deze extra mogelijkheden kunnen organisaties hun data op schaal organiseren, visualiseren en contextualiseren, waardoor de kwaliteit van de inzichten verbetert en analytische projecten sneller kunnen worden opgeleverd, zodat de besluitvorming op topniveau direct wordt ondersteund.

Hoe kunnen ML Data catalogi data geletterdheid versnellen?

Zoals eerder gezegd, is Data de belangrijkste stap om een data organisatie te worden. Als data data en -wetenschappers, besluitvormers, etc.) de data niet begrijpen, is het niet beter dan een teveel aan opslag, wat netto negatief is als je kijkt naar de kosten van het opslaan van data.

data op basis van ML ondersteunen data niet alleen door barrières weg te nemen voor het leren over de data, maar nog belangrijker, door ze uit te leggen in de taal van het bedrijf. Zo kunnen geautomatiseerde data data organiseren in bedrijfsspecifieke domeinen op basis van verschillende elementen, waardoor een gemeenschappelijke noemer ontstaat die zowel een data als een HR-manager kan gebruiken. Bovendien, wanneer data in staat zijn om data te gebruiken om hun output te verbeteren, zullen ze zich tot data (en de data ) wenden wanneer ze de volgende keer voor een soortgelijke uitdaging komen te staan, waardoor op organische wijze een data en data organisatie ontstaat.

Waarom data-geletterd en -gedreven worden essentieel is voor succes

Een data organisatie worden is noodzakelijk gezien de snel veranderende aard van de hedendaagse bedrijfsomgeving. In een onderzoek uitgevoerd door Traci Gusher, een leider op data en analytics (D&A), gaf 93% van de bedrijven aan dat ze hun investeringen in D&A-mogelijkheden "agressief" zouden blijven verhogen. Volgens Deborah Leff, CTO of Data Science and AI bij IBM, komt 87% van de data science-projecten echter nooit verder dan de planningsfase, wat een negatieve invloed heeft op de data .

Nu bedrijven in alle sectoren enorme investeringen doen, zijn de winnaars degenen die hun stakeholders kunnen helpen om data te worden. Slagen in de missie om data te worden, heeft geleid tot EBITDA-verhogingen tot 25%.

Het is belangrijk om te begrijpen dat een organisatie niet data kan worden, tenzij het eerst de nodige stappen heeft genomen om data te worden. Door mensen de beschikking te geven over één enkele bron van waarheid voor hun data, aangedreven door ML-mogelijkheden die overbodige handmatige taken zoals lineage mapping, het toewijzen van data en -eigenaren en het profileren van data overbodig maken, worden transparantie en vertrouwen bevorderd.

Data Catalogi: een kritisch onderdeel van besluitvorming

Machine learning heeft data supercharged en omgevormd tot een essentieel hulpmiddel voor het hedendaagse bedrijfslandschap. De mogelijkheid om het giswerk weg te nemen uit het begrijpen van complexe datasets door middel van consistente "intelligente" acties verhoogt de transparantie, wat vervolgens leidt tot meer vertrouwen in data , wat resulteert in een groter gebruik van data, het genereren van grotere inzichten en het produceren van een eindproduct van data besluitvorming.