Autor

Autor

Autor

Im heutigen digitalen Zeitalter stehen Unternehmen vor der Herausforderung, mit dem beispiellosen Tempo der data-Erzeugung und der Fülle von Unternehmenssystemen und digitalen Technologien, die alle Arten von data sammeln, Schritt zu halten. Hinzu kommt die Notwendigkeit, diese großen Mengen an data schnell und effizient zu analysieren, um Erkenntnisse und Intelligenz zu generieren und so den Geschäftswert zu maximieren. Infolgedessen sind Big data platforms zu einer wesentlichen Grundlage für Unternehmen geworden, um effizient data Lösungen einzusetzen, die zeitnahe data-driven Geschäftsentscheidungen und Wettbewerbsvorteile ermöglichen.

“Data-Analyse- und Intelligenzlösungen verbreiten sich in Unternehmen, um das Geschäftswachstum zu ermöglichen. Unternehmen sollten große data platforms als solide Grundlage für den Einsatz von data-Lösungen in großem Maßstab aufbauen. Diese data platforms sollten speziell für Unternehmen entwickelt werden, denn sie sind nur so gut wie die Erkenntnisse und die Intelligenz, die sie ermöglichen. Und sie sollten zukunftssicher sein und von den ständigen Fortschritten bei data-Infrastrukturdiensten und -Technologien profitieren.”
Oussama Ahmad, Data Beratender Partner bei Artefact

Hauptziele der Big Data Plattform

Big data platforms zielt darauf ab, data-Silos aufzubrechen und die verschiedenen Arten von data-Quellen zu integrieren, die für die Implementierung fortschrittlicher data-Analysen und Intelligence-Lösungen erforderlich sind. Sie bieten eine skalierbare und flexible Infrastruktur für das Sammeln, Speichern und Analysieren großer Mengen von data aus verschiedenen Quellen. Diese Plattformen sollten erstklassige data-Verwaltungsdienste und -Technologien nutzen und drei wichtige Ziele erfüllen:

  • data-Quellen zentralisieren: Ein Big data platform sollte data-Silos aufbrechen, indem es automatisch verschiedene Arten und Größen von data-Quellen aus data-Systemen von Unternehmen und data-Quellen von Dritten aufnimmt und speichert. Es sollte das zentrale data-Repository werden, das eine einzige Quelle der Wahrheit für alle data-Quellen bietet, die für data-Analyselösungen benötigt werden.

  • Aktivieren Sie data-Analyselösungen: Ein großes data platform sollte eine robuste Infrastruktur für die Entwicklung, den Betrieb und die Bereitstellung verschiedener Arten von Analyselösungen (von einfachen Berichten bis hin zu fortgeschrittenem maschinellem Lernen) bieten, um den geschäftlichen Bedarf an Informationen und Erkenntnissen für die Entscheidungsfindung zu decken.

  • Gewährleisten Sie einen gesetzeskonformen und sicheren Zugang zum data und zu Anwendungen: Mit einem großen data platform sollten Unternehmen in der Lage sein, sowohl internen als auch externen Beteiligten einen konsolidierten, sicheren data-Zugang zu bieten. Außerdem sollte es data auf eine Art und Weise speichern, verarbeiten und verteilen, die den lokalen data-Gesetzen und -Vorschriften sowie den internationalen Standards und Best Practices entspricht.

Infrastruktur der Big Data Plattform

Es gibt mehrere Infrastrukturoptionen für ein großes data platform: vollständig vor Ort, vollständig cloud oder hybride cloud/On-Premise, jede mit ihren eigenen Vorteilen und Herausforderungen. Unternehmen sollten bei der Wahl der am besten geeigneten Infrastrukturoption für ihr großes data platform eine Reihe von Faktoren berücksichtigen, darunter data Sicherheits- und Residenzanforderungen, data Quellintegrationen, Anforderungen an Funktionalität und Skalierbarkeit sowie Kosten und Zeit. Eine vollständig cloud-basierte Architektur bietet niedrigere und besser vorhersehbare Kosten, sofort einsatzbereite Dienste und Integrationen sowie schnelle Skalierbarkeit, aber keine Kontrolle über die Hardware und erfüllt möglicherweise nicht die data Datenschutz- und Aufenthaltsbestimmungen. Eine vollständig vor Ort installierte Architektur bietet die volle Kontrolle über die Hardware und die data-Sicherheit, erfüllt in der Regel die Datenschutz- und Aufenthaltsbestimmungen, verursacht jedoch höhere Kosten und erfordert eine langfristige Planung für die Skalierung. Eine hybride cloud/vor-Ort-Architektur bietet das Beste aus beiden Welten und erleichtert die vollständige Migration auf das cloud zu einem späteren Zeitpunkt, kann aber eine komplexere Einrichtung erfordern.

Viele Unternehmen entscheiden sich für eine hybride Infrastruktur für ihre großen data platforms, weil sie hochsensible data (z.B. Kunden- und Finanzdaten) auf ihren eigenen Servern aufbewahren müssen oder weil es an staatlich zertifizierten cloud Service Providern (CSPs) fehlt, die die lokalen data Datenschutz- und Residenzanforderungen erfüllen. Diese Organisationen ziehen es auch vor, cloud-native oder nicht sensible data-Quellen im cloud zu behalten, um die Kosten für Speicher- und Rechenressourcen zu optimieren und die Vorteile von sofort verfügbaren data-Analysen und maschinellen Lerndiensten von CSPs zu nutzen. Andere Unternehmen, die keine organisatorischen oder gesetzlichen Anforderungen an die Ansässigkeit von data innerhalb des Unternehmens oder Landes haben, entscheiden sich für eine vollständig cloud-basierte Infrastruktur, um die Implementierungszeit zu verkürzen, die Kosten zu optimieren und leicht skalierbare Ressourcen zu nutzen.

Abbildung 1: Hybride Cloud & On-Premise Data Plattform-Infrastruktur

Ein großes data platform umfasst in der Regel die Einrichtung von sieben Hauptebenen, die den data-Lebenszyklus von “rohem data” über “Informationen” bis hin zu “Erkenntnissen” widerspiegeln. Unternehmen sollten sorgfältig überlegen, welche Dienste und Tools für jede dieser Schichten erforderlich sind, um einen nahtlosen data-Flow und eine effiziente Generierung von data-Einsichten zu gewährleisten. Diese Dienste und Tools sollten in jeder Schicht der Big data platform wichtige Funktionen erfüllen, wie in Abbildung 2: Big Data Platform Data Layers dargestellt.

Abbildung 2: Große Data-Plattform Data-Schichten

Die Entwicklung der Big Data Plattform

Die Entwicklung eines Big data platform sollte mehrere Stufen durchlaufen, beginnend mit einer Minimum Viable Platform (MVP) und fortgesetzt mit schrittweisen Upgrades. Ein Unternehmen sollte die Entwicklung seines Big data platform mit den gestiegenen Anforderungen an umfassendere und schnellere data Einblicke und Intelligenz für Geschäftsentscheidungen synchronisieren. Diese gestiegenen Anforderungen wirken sich auf die Komplexität des Big data platform in Bezug auf data-Analyselösungen, data-Quellenvolumen und -typen sowie interne und externe Benutzer aus. Die Entwicklung des großen data platform umfasst die Hinzufügung von mehr Speicher- und Rechenressourcen, erweiterte Funktionen und Funktionalitäten sowie Verbesserungen bei der Sicherheit und Verwaltung der Plattform.

Schaubild 3: Big Data Plattform Entwicklung

“Wir haben festgestellt, dass viele Unternehmen dazu neigen, Big data platforms vom ersten Tag an mit erweiterten und unnötigen Funktionen auszustatten, was die Betriebskosten für die Technologie erhöht. Eine große data platform-Implementierung sollte mit einer minimal funktionsfähigen Plattform beginnen und auf der Grundlage der geschäftlichen und technologischen Anforderungen weiterentwickelt werden. In den frühen Phasen des Aufbaus der Plattform sollten Unternehmen eine robuste data governance- und Verwaltungsschicht implementieren, die data-Qualität, Datenschutz, Sicherheit und die Einhaltung lokaler und regionaler data-Gesetze gewährleistet.”
 Anthony Cassab, Data Beratender Direktor bei Artefact

Richtlinien für eine zukunftssichere Big Data Plattform

Ein großes data platform sollte nach wichtigen architektonischen Richtlinien aufgebaut werden, um sicherzustellen, dass es zukunftssicher ist und eine einfache Skalierbarkeit der Ressourcen, die Übertragbarkeit über verschiedene On-Premise- und cloud-Infrastrukturen, die Aufrüstung und den Ersatz von Diensten und die Erweiterung der data-Sammel- und Austauschmechanismen ermöglicht.

  • Modulare data Schichten: Alle Plattformschichten sollten gut definiert und integriert sein, von der data-Ingestion-Schicht bis zur data-Visualisierungs- und BI-Schicht. Jede Schicht sollte erstklassige Dienste oder Tools nutzen. Das bedeutet in der Regel, dass sich die Architektur nicht auf eine “Blackbox”-Lösung stützt und die Konfiguration und Integration von eigenständigen Tools und Diensten ermöglicht, die bestimmte Funktionen bieten.

  • Containerisierte Anwendungen: Die Plattform sollte data Aufnahme-, Verarbeitungs- und Analyseverfahren und -anwendungen mithilfe von Orchestrierungsplattformen wie Kubernetes containerisieren. Container bieten einen logischen Paketierungsmechanismus, mit dem Anwendungen von der Laufzeitumgebung abstrahiert werden können, so dass containerisierte Arbeitslasten auf verschiedenen Arten von Infrastrukturen ausgeführt werden können. Dies erleichtert die Übertragbarkeit von Plattformanwendungen über verschiedene Vor-Ort- und cloud-Infrastrukturen und den Einsatz über mehrere clouds.

  • Microservices-basierte Architektur: Plattformanwendungen sollten in Microservices aufgeteilt werden, die jeweils eine bestimmte Funktion erfüllen und miteinander interagieren. Dies erleichtert die Erstellung und Wartung von Anwendungen, ermöglicht die unabhängige Bereitstellung und Skalierung von Microservices und ermöglicht die schnelle und häufige Bereitstellung großer komplexer Anwendungen.

  • Standarddienste und Tools: Die Auswahl der Tools und Dienste für die Plattform sollte sich auf gemeinsame Industriestandards (offene Standards) konzentrieren und die Abhängigkeit von denjenigen, die für einen einzelnen Technologieanbieter spezifisch sind, verringern. So sollte die Plattform beispielsweise cloud-Dienste enthalten, die von mehreren cloud-Dienstanbietern genutzt werden. Dies erleichtert die Migration zwischen verschiedenen Vor-Ort- und cloud-Infrastrukturen und Multi-cloud-Implementierungen, was Kosten und Zeit spart.

  • Robust data governance: Die Plattform sollte von Anfang an einen robusten data governance-Rahmen in Form von Governance-Tools, Diensten, Prozessen, Kontrollen und Regeln enthalten, die eine kontinuierliche Überwachung und Verbesserung der data-Qualität, einen sicheren Zugang zu data und data-Analysen, den Schutz der Privatsphäre, eine konforme Speicherung und Verarbeitung sowie eine standardisierte data- und Metadata-Verwaltung gewährleisten. Dies erleichtert die Skalierung der Plattformressourcen und -fähigkeiten und erleichtert die breite Einführung von data-Analyselösungen und die Nutzung verfügbarer data-Sets.

“Eine anpassungsfähige und modulare Plattform, die mit den sich entwickelnden Geschäftsanforderungen skaliert werden kann, ist einer “Black Box”-Plattform vorzuziehen, die zwar gut integriert ist, aber nur eine begrenzte Anpassung erlaubt. Diese Plattformarchitekturen können ganz oder teilweise im cloud aufgebaut werden, um die Vorteile des cloud-Computings, wie Skalierbarkeit und Kosteneffizienz, zu nutzen und gleichzeitig die Datenschutz- und Sicherheitsanforderungen der data-Schutzvorschriften zu erfüllen.”
Faisal Najmuddin, Data Engineering Manager bei Artefact

Zusammenfassend lässt sich sagen, dass ein großes data platform Unternehmen zahlreiche Vorteile bietet, wie z.B. die Zentralisierung von data-Quellen, fortschrittliche data-Analyselösungen und den unternehmensweiten Zugriff auf data-Analyselösungen und Quellen. Die Implementierung eines großen data platform erfordert jedoch eine Reihe strategischer Entscheidungen, wie z.B. die Wahl der richtigen Infrastruktur(en), die Einführung einer zukunftssicheren Architektur, die Auswahl von Standard- und “migrierbaren” Diensten, die sorgfältige Berücksichtigung von data-Schutzbestimmungen und schließlich die Definition eines optimalen Entwicklungsplans, der eng mit den Geschäftsanforderungen verknüpft ist und die Rendite der data-Investitionen maximiert.