ACTUALITÉS / DATA CONSULTING
28 octobre 2020
Data Les plateformes d'échange de données ont révolutionné la manière dont les marques stockent, analysent et utilisent data - mais pour les utiliser plus efficacement, elles doivent commencer à intégrer data la gouvernance en tant que code, écrivent Justine Nerce, Data Consulting Director, et Jean-Baptiste Charruey, Manager Data Engineering, à Artefact.
Alors que les économies mondiales commencent à se remettre du choc initial causé par le coronavirus, nous pouvons nous attendre à une période de consolidation et de réévaluation par les entreprises. Cependant, le besoin d'innovation ne se dément pas, même si les budgets sont serrés. Le lancement de nouveaux produits et services représente toujours représente encore plus de 25 % du chiffre d'affaires et des bénéfices totaux.
L'innovation doit être guidée par des données précises et de qualité data. Toutefois, pour que cela soit possible, les entreprises ont besoin d'une base de données facilement accessibles, documentées et normalisées, data , dans laquelle puiser. Les cycles de développement de nouveaux produits et services sont de plus en plus courts et compétitifs, et les organisations doivent donc faire évoluer leur approche de data pour rester dans la course.
L'essor de la plateforme de data a bien servi les entreprises en accélérant l'accès aux data, en particulier celles qui cherchent à construire la prochaine génération de solutions d'IA. Cependant, il est clair que les marques ont désormais besoin d'une approche plus robuste, efficace et qualitative pour rendre leurs plateformes de data agnostiques, c'est-à-dire maintenables, opérationnelles et évolutives pour n'importe quelle infrastructure cloud, sur site ou hybride.
L'essor et le déclin de la plateforme data
Les entreprises révolutionnent constamment leur approche de data pour gagner un avantage sur le marché. Au fil des décennies, les entrepôts data - grands dépôts de produits filtrés data - ont cédé la place aux lacs data - vastes entrepôts centralisés de produits bruts non raffinés data. Cependant, ces énormes stocks de data se sont révélés peu maniables et difficiles à gérer. Les délais d'exécution ont été allongés car il n'existait pas de processus agile clair pour rationaliser le développement.
Par conséquent, nous constatons que les environnements monolithiques d'autrefois sont remplacés par une architecture plus distribuée data , basée sur de multiples plateformes data . data Il s'agit d'ensembles de logiciels et de services qui entourent un lac data afin de le rendre plus exploitable. Les organisations construisent souvent plusieurs plateformes data pour chaque domaine d'activité et pour chaque nouveau projet. Cela permet aux équipes de développement d'accéder rapidement à data et aux informations dont elles ont besoin pour créer une nouvelle valeur commerciale qui réponde à leurs besoins actuels.
Toutefois, la décentralisation s'accompagne d'une fragmentation et d'une duplication. De nombreuses entreprises consacrent énormément de temps et de ressources à la construction d'une plateforme data pour un environnement particulier. Elles doivent ensuite tout recommencer pour le projet ou le cas d'utilisation suivant, avec des écarts importants en fonction des connaissances techniques de l'équipe. Les coûts sont multipliés plusieurs fois car les équipes repartent essentiellement de zéro à chaque fois qu'un nouveau projet est lancé.
Une grande partie des travaux les plus utiles réalisés par les entreprises aujourd'hui - y compris dans le domaine de l'intelligence artificielle - sont interdépartementaux et interdomaines. La qualité de data doit être partagée entre les équipes et les différentes plateformes data pour réaliser son plein potentiel, mais comment maintenir la qualité lorsque data est soumis à une gamme de politiques contradictoires ? Il faut trouver un compromis entre l'appropriation locale de data par les équipes pour personnaliser et créer, et la standardisation de l'approche pour construire une base technologique solide.
Saisir le maillage data
Sans lien entre les différents domaines, les plateformes data ne parviendront pas à offrir la qualité data et la rentabilité dont les marques ont besoin pour un développement rapide. Heureusement, elles peuvent faire évoluer leur approche. Elles devraient faire évoluer leur architecture data d'une collection disparate de plateformes data vers ce que Zhamak Dehghani définit comme un "maillagedata .
Un maillage data est une architecture dans laquelle des plateformes data distribuées, appartenant à des équipes interfonctionnelles indépendantes, sont reliées par un "maillage" de politiques, de gouvernance et d'outils communs. Cette approche apporte flexibilité et résilience aux plateformes data en établissant une base partagée, tout en donnant aux équipes la liberté de personnaliser leur propre domaine.
Cette approche transforme une plate-forme data d'un projet unique en un actif à long terme, en éliminant la duplication du travail et l'épuisement inutile des ressources. Cependant, l'inconvénient du maillage data est que les équipes individuelles doivent faire beaucoup de travail pour s'assurer que l'industrialisation est terminée. Cela peut prendre beaucoup de temps pour un résultat qui est loin d'être parfait. Il est donc essentiel de disposer d'un modèle qui réponde à toutes les exigences d'une solution prête à être produite. Mais quelle forme doit prendre ce modèle ?
La principale composante est un ensemble de codes communs à toutes les plateformes data . Cette "sentinelledata " est un mélange de solutions qui facilitent le traitement et l'analyse de data et la transition vers l'industrialisation. Son rôle est de superviser et de rationaliser tous les flux data - tels que la collecte de métadonnées et le nettoyage - grâce au développement de modules relatifs à la qualité et à la documentation data .
Une sentinelle data libère les équipes et les spécialistes de data des tâches banales et répétitives de la gestion de data . Ils peuvent ainsi se concentrer sur des tâches plus stratégiques et innovantes qui créent une nouvelle valeur pour l'entreprise.
Au cœur de data sentinel, data governance as code doit être fermement ancré dans la conception de la plateforme et poursuivi avec chaque nouveau cas d'utilisation. Grâce à data governance as code, data est dès le départ "possédé", de haute qualité, documenté, sécurisé et conforme, ainsi que facilement accessible par le biais de modèles data dans toute l'organisation.
Rendre l'innovation ordinaire
Data Les plateformes devraient être des produits évolutifs, destinés à être activés sur le site data et à générer rapidement de la valeur commerciale. Lorsqu'elles sont mutualisées entre différents cas d'utilisation et exigences, elles rendent l'innovation et l'invention plus rapides et plus rentables. En effet, la mutualisation des services peut réduire la vitesse de mise en œuvre de 40 %, en aidant les départements à générer de la valeur en offrant la qualité et la variété data nécessaires à leurs cas d'utilisation.
Les entreprises ont un flux constant de nouveaux cas d'utilisation et de produits à développer, en particulier dans le climat actuel. Une approche mutualisée, data governance as code, fournit un processus de bout en bout qui leur permet d'industrialiser véritablement ces cas d'utilisation. data de haute qualité et précis peut être facilement partagé entre les projets et les équipes grâce à une solution robuste et hautement modélisée. Il n'y a pas de perte de temps lorsque l'on a besoin d'informations pour un nouveau produit.
La technologie seule ne suffit pas. Pour que la plateforme data fonctionne, vous devez adopter une approche itérative et transversale. C'est la seule façon de rendre l'innovation ordinaire dans votre entreprise.
Première publication par ITPortal.com