Accelerating Data Literacy Using Machine Learning Data Catalogs

Autor

John Ly

Senior Berater, Strategie & Data Management, bei Artefact USA

Bevor wir uns mit data-Katalogen für maschinelles Lernen (ML) befassen, sollten wir zunächst definieren, was ein data-Katalog ist: ein zentrales Repository, das Metadata wie data-Quellen, data-Formate, relationale data-Datenbanken und data-Abstammungen speichert und deren jeweilige Eigentümer identifiziert. data-Kataloge gelten weithin als Grundlage einer data-driven-Organisation. Sie fördern die unternehmensweite data-Kompetenz, dienen als einzige Quelle der Wahrheit für die Interpretation und Verwendung von data in der Analytik und fördern data als Produkt durch den Besitz von data-Assets.

Während data-Kataloge gibt es schon seit den 1950er Jahren, Der erste ML-gestützte data-Katalog, der “Automated Data Catalog”, wurde erst 2012 von der Unternehmenssoftwarefirma Alation eingeführt. Diese automatisierten Kataloge ermöglichten Funktionen, die heute selbstverständlich erscheinen, wie z.B. die automatische Metadata-Erfassung, aber sie ebneten den Weg für die hochentwickelten ML data-Kataloge anderer Anbieter, wie Collibra und Atlan.

Sechs Merkmale, auf die Sie bei einem ML Data Katalog achten sollten

1. Automatisierte data Markierung: Die “Privatadresse” wird automatisch als “PII” gekennzeichnet und in einen sicheren Zugriffsverwaltungspool und eine “Kunden”-Domäne data zum Verbrauch sortiert.

2. KI-unterstützte semantische Suche: Durch den Abgleich mit der Suchhistorie kann die ML data Katalogsuche das relevanteste data Asset vorhersagen und die Suche für den Benutzer beschleunigen.

3. Automatisierte data-Stammbaumkartierung: Erfasst automatisch Transformationen einer Tabelle aus dem System of Record (SOR) in das Dashboard, das für die geschäftliche Nutzung verwendet wird.

4. Data Qualitätsverbesserung: Der ML-Katalog weist auf inkonsistente Formatierungen hin (z.B. “Mai 2023”’ statt “20230501”) und macht Vorschläge zur Verbesserung des data.

5. Automatisiertes data-Profiling: Durch die Analyse der Integration von Liquidität data im gesamten Tech-Ökosystem werden data-Teams bei Finanzinstituten auf potenzielle data-Qualitätsprobleme aufmerksam gemacht, die gelöst werden können, um ihre Risikoexposition genau darzustellen.

6. Data Entdeckung: Wenn eine data-Datenbank mit Metriken zum Verbraucherverhalten in den Katalog integriert wird, klassifizieren ML-Funktionen automatisch die data und beschleunigen die zukünftige Suche.

Mit diesen zusätzlichen Funktionen, Organisationen können organisieren, visualisieren und kontextualisieren Sie ihre data im Maßstab, die Qualität der Erkenntnisse zu verbessern und die Zeit bis zur Bereitstellung von Analyseprojekten zu verkürzen, die die Entscheidungsfindung auf höchster Ebene direkt unterstützen.

Wie können ML Data Kataloge die data Alphabetisierung beschleunigen?

Data-Kenntnisse sind, wie bereits erwähnt, der grundlegende Schritt auf dem Weg zu einer data-driven-Organisation. Wenn data-Konsumenten (data-Analysten und -Wissenschaftler, Entscheidungsträger usw.) das data nicht verstehen, ist es nicht besser als ein Übermaß an Speicherplatz, was angesichts der Kosten für die Speicherung von data negativ ist.

ML-gestützte data-Kataloge unterstützen die data-Kompetenz nicht nur, indem sie die Hürden für das Erlernen des data beseitigen, sondern vor allem, indem sie es in der Sprache des Unternehmens erläutern. Beispielsweise können automatisierte data-Tags data-Assets auf der Grundlage verschiedener Elemente in geschäftsspezifische Domänen einordnen und so einen gemeinsamen Nenner liefern, den sowohl ein data-Ingenieur als auch ein Personalleiter nutzen kann. Außerdem, wenn Nicht-data-Rollen in der Lage sind, data-Assets zu nutzen, um ihren Output zu verbessern, werden sie sich an data (und den data-Katalog) wenden, wenn sie das nächste Mal vor einer ähnlichen Herausforderung stehen, eine data-kundige und data-driven-kundige Organisation zu schaffen.

Warum es für den Erfolg wichtig ist, data-kompetent und -orientiert zu sein

Die Entwicklung zu einem data-driven-Unternehmen ist angesichts des sich schnell entwickelnden Geschäftsumfelds von heute unerlässlich. In einer Forschung Studie von Traci Gusher, einem führenden Unternehmen im Bereich data und Analytik (D&A), gaben 93% der Unternehmen an, dass sie ihre Investitionen in D&A-Fähigkeiten weiterhin “aggressiv” erhöhen werden. Allerdings, laut Deborah Leff, CTO von Data Science and AI bei IBM, kommen 87% der data Wissenschaftsprojekte nie über die Planungsphase hinaus, was sich negativ auf die data Ambitionen auswirkt.

Unternehmen aus allen Branchen haben enorme Investitionen getätigt, Die Gewinner werden diejenigen sein, die in der Lage sind, ihren Stakeholdern zu helfen, data-kompetent zu werden.. Der Erfolg bei der Mission, data-driven zu werden, hat gezeigt Steigerung des EBITDA um bis zu 25%.

Es ist wichtig zu verstehen, dass ein Unternehmen nicht data-driven werden kann, wenn es nicht zuerst die notwendigen Schritte unternommen hat, um data-kompetent zu werden. Wenn Sie Ihren Mitarbeitern eine einzige Quelle der Wahrheit für ihre data zur Verfügung stellen, die durch ML-Funktionen unterstützt wird, die überflüssige manuelle Aufgaben wie die Zuordnung von Abstammungslinien, die Zuweisung von data-Tags und -Besitzern und die Erstellung von data-Profilen überflüssig machen, fördert dies Transparenz und Vertrauen.

Data Kataloge: ein wichtiger Bestandteil der Entscheidungsfindung

Das maschinelle Lernen hat data-Kataloge zu einem unverzichtbaren Werkzeug in der heutigen Geschäftswelt gemacht. Die Fähigkeit, komplexe data-Sets durch konsistente “intelligente” Aktionen zu verstehen, erhöht die Transparenz, was wiederum das Vertrauen in data-Assets stärkt, was zu einer stärkeren Nutzung von data führt, mehr Erkenntnisse generiert und ein Endprodukt der data-driven-Entscheidungsfindung hervorbringt.

Kontaktieren Sie uns