Auteur

Auteur

Auteur

In het huidige digitale tijdperk worden organisaties uitgedaagd om gelijke tred te houden met de ongekende snelheid waarmee data worden gegenereerd en de overvloed aan bedrijfssystemen en digitale technologieën die allerlei soorten data verzamelen. Dit gaat gepaard met de noodzaak om deze grote hoeveelheden data snel en efficiënt te analyseren om inzichten en intelligentie te genereren en zo de bedrijfswaarde te maximaliseren. Als gevolg hiervan zijn big data een essentiële basis geworden voor organisaties om efficiënt data in te zetten die tijdige data zakelijke beslissingen en concurrentievoordeel opleveren.

"Data Oplossingen voor analyse en informatie verspreiden zich binnen organisaties om bedrijfsgroei mogelijk te maken. Organisaties moeten grote data platforms bouwen als solide basis om data oplossingen op schaal te implementeren. Deze data platforms moeten speciaal gebouwd zijn voor bedrijven, omdat ze slechts zo goed zijn als de zakelijke inzichten en intelligentie die ze mogelijk maken; en ze moeten toekomstbestendig gebouwd zijn, zodat ze kunnen profiteren van de voortdurende vooruitgang in data infrastructuurdiensten en -technologieën."
Oussama Ahmad, Data Consulting Partner bij Artefact

Belangrijkste doelstellingen van het Big Data platform

Big data platforms zijn erop gericht om data silo's te doorbreken en de verschillende soorten data bronnen te integreren die nodig zijn om geavanceerde data oplossingen voor analyse en informatievergaring te implementeren. Ze bieden een schaalbare en flexibele infrastructuur voor het verzamelen, opslaan en analyseren van grote hoeveelheden data uit meerdere bronnen. Deze platforms moeten gebruik maken van de beste data beheerdiensten en -technologieën en voldoen aan drie belangrijke doelstellingen:

  • data bronnen centraliseren: Een groot data platform moet data silo's doorbreken door automatisch verschillende types en groottes van data bronnen op te nemen en op te slaan vanuit data bedrijfssystemen en data bronnen van derden. Het moet de centrale data opslagplaats worden, die een enkele bron van waarheid biedt voor alle data bronnen die nodig zijn voor data analyseoplossingen.

  • data analytische oplossingen mogelijk maken: Een big data platform moet een robuuste infrastructuur bieden voor het ontwikkelen, uitvoeren en implementeren van verschillende soorten analytische oplossingen (van eenvoudige rapportage tot geavanceerde machine learning) zoals nodig is om te voldoen aan zakelijke behoeften aan intelligentie en inzichten voor besluitvorming.

  • Zorgen voor compliant en veilige toegang tot data en applicaties: Met een groot data platform moeten organisaties geconsolideerde, veilige data toegang kunnen bieden aan zowel interne als externe belanghebbenden. Het moet ook data opslaan, verwerken en distribueren op een manier die voldoet aan lokale data wet- en regelgeving en internationale standaarden en best practices.

Infrastructuur van het Big Data platform

Er zijn verschillende infrastructuuropties voor een big data : volledig lokaal, volledig cloud of hybride cloud, elk met zijn eigen voordelen en uitdagingen. Organisaties moeten een aantal factoren in overweging nemen bij het kiezen van de meest geschikte infrastructuuroptie voor hun big data , waaronder eisen data en -residentie, integraties data , eisen voor functionaliteit en schaalbaarheid, en kosten en tijd. Een volledig cloud architectuur services lagere en meer voorspelbare kosten, kant-en-klare diensten en integraties en snelle schaalbaarheid, maar heeft geen controle over de hardware en voldoet mogelijk niet aan de regelgeving data en residentie. Een volledig on-premise architectuur biedt volledige controle over hardware en data , voldoet meestal aan de privacy- en verblijfsvoorschriften, maar heeft hogere kosten en vereist langetermijnplanning voor schaalbaarheid. Een hybride cloud architectuur services het beste van twee werelden en maakt volledige migratie naar de cloud op een later tijdstip mogelijk, maar kan een complexere set-up vereisen.

Veel organisaties kiezen voor een hybride infrastructuur voor hun big data vanwege organisatorische eisen om zeer gevoelige data (zoals data en financiële data) op hun eigen servers te bewaren, of vanwege het gebrek aan door de overheid gecertificeerde cloud service providers (CSP's) die voldoen aan lokale eisen op het gebied data en -verblijf. Deze organisaties geven er ook de voorkeur aan om cloud of niet-gevoelige data in de cloud te houden om de kosten voor opslag en rekenkracht te optimaliseren en te profiteren van kant-en-klare diensten data en machine learning die beschikbaar zijn bij CSP's. Andere organisaties, die geen organisatorische of wettelijke vereisten hebben voor het verblijf van data binnen de organisatie of het land, kiezen voor een volledig cloud infrastructuur voor een snellere implementatietijd, geoptimaliseerde kosten en eenvoudig schaalbare bronnen.

class="lazyload

Figuur 1: Hybride Cloud & on-premise Data

Een groot data platform omvat meestal het opzetten van zeven hoofdlagen die de data levenscyclus van "ruwe data" naar "informatie" naar "inzichten" weerspiegelen. Organisaties moeten zorgvuldig nadenken over de juiste diensten en tools die nodig zijn voor elk van de lagen om een naadloze gegevensstroom en efficiënte generatie van data inzichten te garanderen. Deze diensten en tools moeten belangrijke functies uitvoeren in elke laag van het Big data platform, zoals weergegeven in Figuur 2: Big Data Platform Data Lagen.

class="lazyload

Figuur 2: Big Data Platform Data Lagen

Evolutie van het Big Data platform

De ontwikkeling van een groot data platform moet in verschillende fasen verlopen, te beginnen met een minimum viable platform (MVP) en verder met incrementele upgrades. Een organisatie moet de evolutie van haar big data platform synchroniseren met de toegenomen eisen voor bredere en snellere data inzichten en intelligentie voor zakelijke beslissingen. Deze toegenomen eisen beïnvloeden de complexiteit van het grote data platform in termen van data analytische oplossingen, data bronvolumes en -types, en interne en externe gebruikers. De evolutie van het grote data platform omvat de toevoeging van meer opslag- en computermiddelen, geavanceerde functies en functionaliteit, en verbeteringen in de beveiliging en het beheer van het platform.

class="lazyload

Figuur 3: Evolutie Big Data platform

"We hebben gezien dat veel organisaties de neiging hebben om grote data platforms vanaf de eerste dag te bouwen met geavanceerde en onnodige functies, waardoor de eigendomskosten van de technologie toenemen. De uitrol van grote data platforms moet beginnen met een minimaal levensvatbaar platform en zich ontwikkelen op basis van bedrijfs- en technologievereisten. In het beginstadium van de bouw van het platform moeten organisaties een robuuste data bestuurs- en managementlaag implementeren die zorgt voor data kwaliteit, privacy, beveiliging en naleving van lokale en regionale data wetten."
 Anthony Cassab, Data Directeur Consulting bij Artefact

Richtlijnen voor een toekomstbestendig Big Data platform

Een big data platform moet worden gebouwd volgens belangrijke architecturale richtlijnen om ervoor te zorgen dat het klaar is voor de toekomst, zodat het eenvoudig schaalbare bronnen, overdraagbaarheid tussen verschillende on-premise en cloud infrastructuren, upgrade en vervanging van diensten en uitbreiding van mechanismen voor het verzamelen en delen data mogelijk maakt.

  • Modulaire data lagen: Alle platformlagen moeten goed gedefinieerd en geïntegreerd zijn, van de data ingestielaag tot de data visualisatie- en BI-laag. Elke laag moet gebruik maken van de beste services of tools, wat typisch vereist dat de architectuur niet vertrouwt op een "black box" oplossing en de configuratie en integratie mogelijk maakt van standalone tools en services die specifieke functionaliteit bieden.

  • Gecontaineriseerde toepassingen: Het platform moet procedures en toepassingen voor data , -verwerking en -analyse containeriseren met behulp van orkestratieplatforms zoals Kubernetes. Containers bieden een logisch verpakkingsmechanisme waarin applicaties kunnen worden losgekoppeld van de runtime-omgeving, waardoor gecontaineriseerde workloads op verschillende soorten infrastructuur kunnen worden uitgevoerd. Dit vergemakkelijkt de overdraagbaarheid van platformapplicaties over verschillende on-premise en cloud en de inzet in meerdere clouds.

  • Op microservices gebaseerde architectuur: Platformapplicaties moeten worden opgesplitst in microservices die elk een specifieke functie hebben en met elkaar interageren. Dit vergemakkelijkt het bouwen en onderhouden van applicaties, maakt onafhankelijke implementatie en schaling van microservices mogelijk en maakt snelle en frequente levering van grote complexe applicaties mogelijk.

  • Standaarddiensten en -hulpmiddelen: De selectie van tools en diensten voor het platform moet zich richten op gedeelde industriestandaarden (open standaarden) en minder afhankelijkheid van tools en diensten die specifiek zijn voor één technologieleverancier. Het platform moet bijvoorbeeld cloud bevatten die gemeenschappelijk zijn voor meerdere cloud service providers. Dit vergemakkelijkt de migratie tussen verschillende infrastructuren op locatie en cloud en cloud implementaties, waardoor kosten en tijd worden beperkt.

  • Robuuste data governance: Vanaf het begin moet het platform een robuust data governancekader omvatten in de vorm van governancehulpmiddelen, -diensten, -processen, -controles en -regels die zorgen voor voortdurende monitoring en verbetering van de data kwaliteit, veilige toegang tot data en data analyses, privacybescherming, conforme opslag en verwerking en gestandaardiseerd data en metadatabeheer. Dit vergemakkelijkt het schalen van platformbronnen en -capaciteiten en vergemakkelijkt de brede toepassing van data analytische oplossingen en het gebruik van beschikbare datasets.

"Een aanpasbaar en modulair platform dat kan meegroeien met de bedrijfsbehoeften is te verkiezen boven een "black box" platform dat goed geïntegreerd is maar beperkte aanpasbaarheid toelaat. Deze platformarchitecturen kunnen volledig of gedeeltelijk in de cloud worden gebouwd om te profiteren van de voordelen van cloud computing, zoals schaalbaarheid en kostenefficiëntie, terwijl ze ook voldoen aan de privacy- en beveiligingsvereisten van de regelgeving data ."
Faisal Najmuddin, Data Engineering Manager bij Artefact

Samengevat biedt een groot data platform meerdere voordelen voor organisaties, zoals het centraliseren van data bronnen, het mogelijk maken van geavanceerde data analyseoplossingen en het bieden van bedrijfsbrede toegang tot data analyseoplossingen en -bronnen. Het implementeren van een groot data platform brengt echter een aantal strategische beslissingen met zich mee, zoals het kiezen van de juiste infrastructuur(en), het aannemen van een toekomstbestendige architectuur, het selecteren van standaard en "migreerbare" diensten, het zorgvuldig afwegen van data beschermingsvoorschriften en tot slot het definiëren van een optimaal evolutieplan dat nauw is gekoppeld aan de bedrijfsvereisten en dat het rendement op data investering maximaliseert.