Auteur

Auteur

Auteur

À l'ère du numérique, les entreprises doivent faire face au rythme sans précédent de la génération de data et à la pléthore de systèmes d'entreprise et de technologies numériques qui collectent tous les types de data. À cela s'ajoute la nécessité d'analyser rapidement et efficacement ces grands volumes de data pour générer des informations et des renseignements afin de maximiser leur valeur commerciale. Par conséquent, les big data platforms sont devenues une base essentielle pour les organisations afin de déployer efficacement des solutions data qui permettent de prendre des décisions commerciales data-driven opportunes et de bénéficier d'un avantage concurrentiel.

“Les solutions d'analyse et d'intelligence Data prolifèrent dans les organisations pour favoriser la croissance de l'entreprise. Les organisations devraient construire de grands data platforms comme fondations solides pour déployer des solutions data à grande échelle. Ces data platforms doivent être conçues pour l'entreprise, car elles ne valent que par les informations et les renseignements qu'elles permettent d'obtenir. Elles doivent également être conçues pour être à l'épreuve du temps et bénéficier des progrès constants des services et des technologies d'infrastructure data.”
Oussama Ahmad, Data Partenaire-conseil chez Artefact

Objectifs clés de la plate-forme Big Data

Les Big data platforms visent à supprimer les silos data et à intégrer les différents types de sources data nécessaires à la mise en œuvre de solutions avancées d'analyse et de renseignement data. Elles fournissent une infrastructure évolutive et flexible pour la collecte, le stockage et l'analyse de grands volumes de data provenant de sources multiples. Ces plateformes doivent s'appuyer sur les meilleurs services et technologies de gestion de data et répondre à trois objectifs clés :

  • Centraliser les sources data: Un grand data platform devrait éliminer les silos data en ingérant et en stockant automatiquement différents types et tailles de sources data provenant de systèmes d'entreprise data et de sources data tierces. Il doit devenir le référentiel central de data, fournissant une source unique de vérité pour toutes les sources de data requises pour les solutions d'analyse de data.

  • Enable data analytics solutions: Un big data platform devrait fournir une infrastructure solide pour développer, exécuter et déployer différents types de solutions analytiques (du simple rapport à l'apprentissage automatique avancé) selon les besoins pour répondre aux besoins de l'entreprise en matière d'intelligence et de connaissances pour la prise de décision.

  • Assurer un accès conforme et sécurisé au data et aux applications: Avec un grand data platform, les organisations devraient être en mesure de fournir un accès data consolidé et sécurisé aux parties prenantes internes et externes. Elles doivent également stocker, traiter et distribuer data d'une manière conforme aux lois et réglementations locales, ainsi qu'aux normes internationales et aux meilleures pratiques.

Infrastructure de la plate-forme Big Data

Il existe plusieurs options d'infrastructure pour un grand data platform : entièrement sur site, entièrement cloud ou hybride cloud/sur site, chacune ayant ses propres avantages et défis. Les entreprises doivent tenir compte d'un certain nombre de facteurs lorsqu'elles choisissent l'option d'infrastructure la plus appropriée pour leur grand data platform, notamment les exigences en matière de sécurité et de résidence data, les intégrations de sources data, les exigences en matière de fonctionnalité et d'évolutivité, ainsi que les coûts et les délais. Une architecture entièrement basée sur cloud offre des coûts plus bas et plus prévisibles, des services et des intégrations prêts à l'emploi et une évolutivité rapide, mais elle ne permet pas de contrôler le matériel et peut ne pas être conforme aux réglementations data relatives à la confidentialité et à la résidence. Une architecture entièrement sur site offre un contrôle total sur le matériel et la sécurité data, respecte généralement les réglementations en matière de confidentialité et de résidence, mais entraîne des coûts plus élevés et nécessite une planification à long terme pour l'évolution. Une architecture hybride cloud/sur site offre le meilleur des deux mondes, facilitant une migration complète vers le cloud à une date ultérieure, mais peut nécessiter une configuration plus complexe.

De nombreuses organisations choisissent une infrastructure hybride pour leurs grandes data platforms en raison d'exigences organisationnelles visant à conserver les data hautement sensibles (telles que les data clients et financières) sur leurs propres serveurs, ou en raison du manque de fournisseurs de services cloud certifiés par le gouvernement (CSP) qui répondent aux exigences locales en matière de data confidentialité et de résidence. Ces organisations préfèrent également conserver les sources cloud natives ou data non sensibles dans le cloud afin d'optimiser les coûts des ressources de stockage et de calcul et de tirer parti des services d'analyse et d'apprentissage automatique data prêts à l'emploi disponibles auprès des CSP. D'autres organisations qui n'ont pas d'exigences organisationnelles ou réglementaires concernant la résidence du data au sein de l'entreprise ou du pays optent pour une infrastructure entièrement basée sur le cloud pour un temps de mise en œuvre plus rapide, des coûts optimisés et des ressources facilement évolutives.

Figure 1 : Infrastructure hybride de la plateforme Data en nuage et sur site

Une grande data platform implique généralement la mise en place de sept couches principales qui reflètent le cycle de vie de la data, de la “data brute” à l“”information“ et à la ”connaissance". Les organisations doivent étudier attentivement les services et outils appropriés requis pour chacune des couches afin de garantir un flux de data transparent et une production efficace d'informations de data. Ces services et outils doivent remplir des fonctions clés dans chaque couche de la grande data platform, comme le montre la figure 2 : Couches de la plate-forme Data de la grande Data.

Figure 2 : Plate-forme Big Data Couches Data

Évolution de la plate-forme Big Data

Le développement d'un big data platform devrait se faire en plusieurs étapes, en commençant par une plateforme minimale viable (MVP) et en poursuivant par des mises à niveau incrémentales. Une organisation doit synchroniser l'évolution de sa grande data platform avec les exigences accrues en matière d'informations et de renseignements plus larges et plus rapides pour la prise de décisions commerciales. Ces exigences accrues ont une incidence sur la complexité du big data platform en termes de solutions analytiques data, de volumes et de types de sources data et d'utilisateurs internes et externes. L'évolution du big data platform comprend l'ajout de ressources de stockage et de calcul supplémentaires, de caractéristiques et de fonctionnalités avancées, ainsi que l'amélioration de la sécurité et de la gestion de la plateforme.

Figure 3 : Évolution de la plate-forme Big Data

“Nous avons constaté que de nombreuses organisations ont tendance à construire de grandes data platforms avec des fonctionnalités avancées et inutiles dès le premier jour, ce qui augmente le coût de possession de la technologie. Le déploiement d'une grande plate-forme data platform devrait commencer par une plate-forme minimale viable et évoluer en fonction des exigences commerciales et technologiques. Dès les premières étapes de la construction de la plateforme, les organisations devraient mettre en place une couche robuste de data governance et de gestion qui garantisse data la qualité, la confidentialité, la sécurité et la conformité avec les lois locales et régionales en matière de data.”
 Anthony Cassab, Data Directeur conseil à Artefact

Lignes directrices pour une plate-forme Big Data à l'épreuve du temps

Un grand data platform devrait être construit conformément à des lignes directrices architecturales clés afin de garantir sa pérennité, de permettre l'extensibilité des ressources, la portabilité entre différentes infrastructures sur site et cloud, la mise à niveau et le remplacement des services, ainsi que l'expansion des mécanismes de collecte et de partage data.

  • Couches modulaires data: Toutes les couches de la plate-forme doivent être bien définies et intégrées, de la couche d'ingestion de data à la couche de visualisation et de BI de data. Chaque couche doit s'appuyer sur les meilleurs services ou outils, ce qui implique généralement que l'architecture ne repose pas sur une solution “boîte noire” et permette la configuration et l'intégration d'outils et de services autonomes qui fournissent des fonctionnalités spécifiques.

  • Applications conteneurisées: La plateforme devrait conteneuriser les procédures et applications d'ingestion, de traitement et d'analyse data à l'aide de plateformes d'orchestration telles que Kubernetes. Les conteneurs offrent un mécanisme de conditionnement logique dans lequel les applications peuvent être abstraites de l'environnement d'exécution, ce qui permet d'exécuter des charges de travail conteneurisées sur différents types d'infrastructure. Cela facilite la portabilité des applications de la plateforme sur différentes infrastructures sur site et cloud, ainsi que le déploiement sur plusieurs cloud.

  • Architecture basée sur les microservices: Les applications de la plateforme devraient être décomposées en microservices, chacun remplissant une fonction spécifique et interagissant avec les autres. Cela facilite la construction et la maintenance des applications, permet le déploiement indépendant et la mise à l'échelle des microservices, et permet la livraison rapide et fréquente de grandes applications complexes.

  • Services et outils standard: La sélection des outils et des services pour la plate-forme devrait se concentrer sur les normes industrielles partagées (normes ouvertes) et réduire la dépendance à l'égard de celles qui sont spécifiques à un seul fournisseur de technologie. Par exemple, la plateforme devrait inclure des services cloud communs à plusieurs fournisseurs de services cloud. Cela facilite la migration entre différentes infrastructures sur site et cloud et les déploiements multi-cloud, réduisant ainsi les coûts et les délais.

  • Robuste data governance: Dès le départ, la plateforme doit intégrer un cadre data governance solide sous la forme d'outils de gouvernance, de services, de processus, de contrôles et de règles qui garantissent un contrôle et une amélioration continus de la qualité des data, un accès sécurisé aux data et aux data analytiques, la protection de la vie privée, un stockage et un traitement conformes, ainsi qu'une gestion normalisée des data et des métadata. Cela facilite la mise à l'échelle des ressources et des capacités de la plateforme, ainsi que l'adoption à grande échelle de solutions d'analyse data et l'utilisation des ensembles data disponibles.

“Une plateforme adaptable et modulaire qui peut évoluer en fonction des besoins de l'entreprise est préférable à une plateforme “boîte noire” qui est bien intégrée mais qui ne permet qu'une personnalisation limitée. Ces architectures de plateforme peuvent être construites entièrement ou partiellement dans le cloud pour tirer parti des avantages de l'informatique cloud, tels que l'évolutivité et la rentabilité, tout en répondant aux exigences de confidentialité et de sécurité des réglementations de protection data.”
Faisal Najmuddin, Data Engineering Manager at Artefact

En résumé, un grand data platform apporte de multiples avantages aux organisations, tels que la centralisation des sources de data, la mise en place de solutions analytiques avancées de data et l'accès à l'échelle de l'entreprise aux solutions et sources analytiques de data. Cependant, la mise en œuvre d'un grand data platform implique un certain nombre de décisions stratégiques, telles que le choix de la ou des bonnes infrastructures, l'adoption d'une architecture à l'épreuve du temps, la sélection de services standard et “migrables”, l'examen attentif des réglementations relatives à la protection du data et, enfin, la définition d'un plan d'évolution optimal étroitement lié aux exigences de l'entreprise et qui maximise le retour sur investissement du data.