Bevor wir uns mit data für maschinelles Lernen (ML) befassen, sollten wir definieren, was ein grundlegender data ist: ein zentrales Repository, in dem Metadaten wie data , data , relationale Datenbanken und die data gespeichert und die jeweiligen Eigentümer identifiziert werden. data gelten weithin als Grundlage einer data Organisation. Sie fördern die unternehmensweite data , dienen als einzige Quelle der Wahrheit darüber, wie data interpretiert und in Analysen verwendet werden sollten, und fördern data als Produkt durch das Eigentum an data .
Während esdata Kataloge bereits seit den 1950er Jahren gibt, wurde der erste ML-gestützte data Katalog, der "Automated Data Catalog", erst 2012 von der Unternehmenssoftwarefirma Alation eingeführt. Diese automatisierten Kataloge ermöglichten Funktionen, die heute selbstverständlich erscheinen, wie z. B. die automatische Erfassung von Metadaten, aber sie ebneten den Weg für die hochentwickelten ML-Kataloge data von anderen Anbietern wie Collibra und Atlan.
Sechs Merkmale, die ein ML Data Katalog aufweisen sollte
1. Automatisierte data Markierung: "Privatadresse" wird automatisch als "PII" gekennzeichnet und in einen sicheren Zugriffsverwaltungspool und einen "Kunden"-Bereich data für den Verbrauch einsortiert.
2. AI-gestützte semantische Suche: Durch den Bezug auf die Suchhistorie sagt die ML data Katalogsuche das relevanteste data Asset voraus und beschleunigt die Suche für den Nutzer.
3. Automatisiertes data Lineage Mapping: Automatische Erfassung von Transformationen einer Tabelle aus dem System of Record (SOR) in das Dashboard, das für die geschäftliche Nutzung verwendet wird.
4. Data Qualitätsverbesserung: Der ML-Katalog stellt inkonsistente Formatierungen fest (z. B. "Mai 2023"' statt "20230501") und macht Vorschläge zur Verbesserung der data.
5. Automatisierte data Profilerstellung: Durch die Analyse der Integration von Liquidität data im gesamten Tech-Ökosystem werden data Teams bei Finanzinstituten auf potenzielle data Qualitätsprobleme aufmerksam gemacht, die gelöst werden können, um ihre Risikoexposition genau darzustellen.
6. Data Entdeckung: Wenn eine Datenbank mit Metriken zum Verbraucherverhalten in den Katalog integriert wird, klassifizieren ML-Funktionen automatisch die data und beschleunigen die künftige Suche.
Mit diesen zusätzlichen Funktionen können Unternehmen ihre data in großem Umfang organisieren, visualisieren und kontextualisieren, die Qualität der Erkenntnisse verbessern und die Zeit bis zur Bereitstellung von Analyseprojekten verkürzen, die die Entscheidungsfindung auf höchster Ebene direkt unterstützen.
Wie können ML Data Kataloge die data Alphabetisierung beschleunigen?
Data ist, wie bereits erwähnt, der grundlegende Schritt auf dem Weg zu einem data Unternehmen. Wenn die data data und -wissenschaftler, Entscheidungsträger usw.) die data nicht verstehen, sind sie nicht besser als überflüssiger Speicherplatz, was angesichts der Kosten für die data ein Minusgeschäft ist.
ML-gestützte data unterstützen die data nicht nur durch die Beseitigung von Hindernissen beim Erlernen der data, sondern vor allem durch die Erklärung der Daten in der Sprache des Unternehmens. So können beispielsweise automatisierte data data auf der Grundlage verschiedener Elemente in geschäftsspezifische Domänen einteilen und so einen gemeinsamen Nenner schaffen, den sowohl ein data als auch ein Personalleiter nutzen kann. Wenn auch data Rollen, die nicht mit Daten zu tun haben, in der Lage sind, data zu nutzen, um ihre Arbeit zu verbessern, werden sie sich bei der nächsten ähnlichen Herausforderung an data (und den data ) wenden und so organisch eine data und data Organisation schaffen.
Warum es für den Erfolg unabdingbar ist, data-literate und -driven zu werden
Die Entwicklung zu einem data Unternehmen ist angesichts des sich schnell entwickelnden Geschäftsumfelds von heute unumgänglich. In einer von Traci Gusher, einem führenden Unternehmen im Bereich data und Analytik (D&A), durchgeführten Studie gaben 93 % der Unternehmen an, dass sie ihre Investitionen in D&A-Fähigkeiten weiterhin "aggressiv" erhöhen werden. Laut Deborah Leff, CTO für Data Science und AI bei IBM, kommen jedoch 87 % der data nie über die Planungsphase hinaus, was sich negativ auf die data auswirkt.
Angesichts der enormen Investitionen, die von Unternehmen aller Branchen getätigt werden, werden diejenigen gewinnen, die in der Lage sind, ihren Stakeholdern zu helfen, data zu werden. Die erfolgreiche Umsetzung des Ziels, data zu werden, hat zu einer Steigerung des EBITDA um bis zu 25 % geführt.
Es ist wichtig zu verstehen, dass ein Unternehmen nur dann data werden kann, wenn es zuvor die notwendigen Schritte unternommen hat, um data zu werden. Die Bereitstellung einer einzigen Wahrheitsquelle für die data, die durch ML-Funktionen unterstützt wird, die überflüssige manuelle Aufgaben wie die Zuordnung von Abstammungslinien, die Zuweisung von data und -besitzern sowie die Erstellung von data überflüssig machen, fördert die Transparenz und das Vertrauen.
Data Kataloge: ein wichtiger Bestandteil der Entscheidungsfindung
Das maschinelle Lernen hat data zu einem unverzichtbaren Werkzeug in der heutigen Unternehmenslandschaft gemacht. Die Fähigkeit, das Rätselraten beim Verstehen komplexer Datensätze durch konsistente "intelligente" Aktionen zu beseitigen, erhöht die Transparenz, was wiederum das Vertrauen in die data stärkt, was zu einer stärkeren Nutzung der data führt, mehr Erkenntnisse generiert und ein Endprodukt der data Entscheidungsfindung hervorbringt.