Data Mesh: the path to data decentralization

Auteur

Pascal Coggia

UK Managing Director et partenaires

Dans cet article, Pascal Coggia, Managing Partner chez Artefact UK, explique ce qu'est et ce que n'est pas Data Mesh, pourquoi il s'agit autant d'un état d'esprit que d'une approche, et quels sont ses cas d'utilisation, ses avantages et ses défis.

Qu'est-ce que la maille Data ? Quelle est la différence avec un lac data ?

L'architecte original de ce terme est Zhamak Dehghani, un Thoughtworks consultant et évangéliste pour la décentralisation de data. En termes simples, Data Mesh est une approche d'architecture distribuée pour la gestion de data analytique. Elle permet aux utilisateurs finaux d'accéder facilement à data et de l'interroger là où il se trouve, sans avoir à le transporter vers un lac ou un entrepôt de data. Une stratégie décentralisée de Data Mesh traite data comme un produit et permet à des équipes spécialisées de s'approprier data par le biais d'une plateforme en libre-service intégrant data governance.

Les lacs Data sont des zones de stockage peu réglementées pour le domaine brut data. Ils étaient censés fournir un accès illimité à data afin d'éviter le goulot d'étranglement des entrepôts de data centralisés et étroitement gérés, mais ils ont eu tendance à souffrir d'une mauvaise qualité de data et de problèmes de découvrabilité. Certains projets de lacs de data régis ont abordé ces questions avec un certain succès, mais ils ont tendance à réduire l'accessibilité relative du data. Data Mesh vise à résoudre ces problèmes par la décentralisation, évitant ainsi complètement ces “marécages de data”.

Qu'entend-on par “data en tant que produit” ?

Je pense que c'est un peu comme le magasin d'applications. Vous téléchargez simplement une application lorsque vous voulez faire autre chose. Pourquoi n'en serait-il pas de même pour data ? Pensez-y de manière structurelle : quels sont les composants d'un produit data ?

Il doit pouvoir être découvert : les gens doivent pouvoir trouver le produit data ;
Il doit être adressable - les gens doivent savoir comment interagir avec lui ;
Il doit se décrire lui-même ;
Il doit être sûr et digne de confiance ; il doit offrir l'interopérabilité.

Tout ceci suggère qu'un produit data repose sur un tissu qui lui permet d'interagir. Il n'est pas isolé. Vous ne pouvez pas vous contenter de rassembler quelques data, de les placer dans un seau S3 et d'appeler cela un produit data. Vous devez l'entourer d'une propriété et d'une gouvernance.

Quels sont les avantages pour les entreprises ?

Data Mesh peut offrir de nombreux avantages aux organisations et aux équipes interfonctionnelles :

La décentralisation de data améliore la rapidité et l'accessibilité, de sorte que data est beaucoup plus facile à découvrir et à utiliser pour tous les utilisateurs de l'entreprise.
Comme les équipes embarquent leurs propres data et gèrent leurs propres produits data, elles peuvent les visualiser et les rendre opérationnels comme elles l'entendent, ce qui favorise l'innovation.
Les décisions et les délais de mise sur le marché seront accélérés, ce qui se traduira par une augmentation du chiffre d'affaires et une amélioration de l'engagement et de la fidélisation des clients - et, en fin de compte, par une réduction des coûts.
L'agilité de l'entreprise en général s'en trouve améliorée, car les capacités des produits ne sont mises en place que là où elles sont nécessaires, et non pas à l'échelle de l'entreprise.

Quels sont les obstacles à l'adoption de Data Mesh ?

Il est important de se rappeler que le réseau Data Mesh ne nécessite pas seulement une connexion à l'Internet. technologique Il est nécessaire d'avoir un état d'esprit de changement. Les organisations doivent apprendre à considérer data comme un produit, à l'utiliser comme un outil d'aide à la décision. data governance et la propriété. Faire passer les entreprises d'une propriété centralisée à une propriété décentralisée et les organisations des pipelines aux produits, où les domaines data sont la première préoccupation, ne sera pas chose aisée.

Parmi les autres questions, on peut citer celles citées par Deloitte:

Duplication de data entre différents domaines : lorsque data est réaffecté pour répondre aux besoins d'un nouveau domaine qui diffère du domaine d'origine, des redondances apparaissent et peuvent avoir un impact potentiel sur l'utilisation des ressources et le coût de la gestion de data.
Mise en œuvre d'une data governance fédérée et conformité à la qualité : avec la coexistence de produits et de pipelines data indépendants, les principes de qualité peuvent facilement être négligés, ce qui se traduit par une dette technique considérable. Ces responsabilités et principes doivent être identifiés et fédérés de manière appropriée.
Une gestion du changement importante est nécessaire : pour adopter des opérations décentralisées Data Mesh, des efforts importants de gestion du changement seront nécessaires.
Les choix technologiques déterminent les capacités globales data platform. Par conséquent, les choix technologiques qui sont à la fois normalisés dans l'ensemble de l'organisation et à l'épreuve du temps pour toutes les capacités data nécessaires doivent être abordés de manière pratique. De mauvaises décisions technologiques peuvent facilement aboutir à des produits data qui augmentent la dette technique au fil du temps.
Data Mesh n'est pas conçu pour consolider toutes les data de l'entreprise en un seul rapport : Bien que l'objectif principal soit l'accessibilité data, la liberté doit exister dans un cadre. Dans Data Mesh, la propriété data et les compétences data sont réparties entre des équipes interfonctionnelles, de sorte que des éléments clés, tels qu'un cadre métadata cohérent et des plates-formes communes, font toujours partie d'une mise en œuvre réussie de Data Mesh.

Quand une entreprise est-elle prête à adopter une stratégie Data Mesh ?

Cela dépend du degré de préparation de l'entreprise. Mais cela dépend aussi de la personne à laquelle vous vous adressez. Un Chief Data Officer qui a mis en place une organisation centrale massive ne sera peut-être pas prêt pour Data Mesh, car il devra d'abord déterminer comment fédérer ces fonctions. Mais la plupart des chefs d'entreprise comprennent la nécessité de démocratiser l'actif data vers les périphéries et l'entreprise, car ils sont souvent frustrés par l'approche centralisée.

Vous devez également savoir ce qui doit se passer au niveau de l'ingénierie pour pouvoir contrôler et régir le maillage, car si vous ne le mettez pas en place correctement, il peut se transformer en Far West. Il y a donc une série d'étapes à suivre.

La première étape consiste à procéder à un examen de l'architecture afin de définir tous les composants essentiels d'une architecture Data Mesh potentielle que l'entreprise possède déjà et la manière dont ils peuvent être exploités pour commencer à donner aux employés les moyens de constituer des équipes de produits.
Existe-t-il une équipe centralisée capable de créer la plate-forme sur laquelle le Data Mesh sera construit ? Cette plateforme doit être présente dès le départ. L'infrastructure est ce qui permet la capacité de distribution.
Veiller à ce que le projet bénéficie du soutien et de l'engagement de l'entreprise et des parties prenantes afin de réussir à tous les niveaux.
Le projet dispose-t-il de l'investissement nécessaire pour construire le Data Mesh et des capacités pour le gérer ? Ces deux éléments sont en effet essentiels.
Une fois ces étapes franchies, il est temps de commencer à constituer les équipes chargées des produits.

La transition vers un réseau maillé Data se fait progressivement, car tous les éléments dont vous disposez déjà - lacs data, entrepôts data - doivent être connectés au réseau maillé Data, ils ne peuvent pas être éliminés. Les gens voudront ces informations, la valeur et la gouvernance qui les entourent déjà.

Quels types d'entreprises déploient avec succès Data Mesh ?

Actuellement, Data Mesh est adopté avec succès dans le secteur des services financiers. ING en est un bon exemple. Il est logique pour les banques d'utiliser Data Mesh - il prend en charge data governance plus fort, et offre donc une sécurité accrue. Avec Data Mesh, les systèmes de détection des fraudes n'ont pas besoin de se connecter à d'autres systèmes et de tirer le même data tous les jours. Au lieu de cela, les entreprises peuvent créer des produits data axés sur le domaine que leurs experts en détection d'anomalies peuvent utiliser pour créer de meilleurs modèles et de meilleurs résultats.

Zalando, qui est la principale plateforme en ligne d'Europe pour la mode, a décentralisé son data en 2020 et a transformé son énorme lac data en un Data Mesh. Pour ce qui est des autres secteurs, nous devrons voir comment les choses se passent au cas par cas. En effet, toute analyse de rentabilité que vous créerez pour le Data Mesh devra être adaptée aux défis spécifiques de l'organisation - et du secteur - et ceux-ci sont en constante évolution.

Data Les stratégies de gestion sont en constante évolution et les organisations doivent être prêtes à s'adapter aux changements pour rester compétitives. Data Mesh est un moyen de briser les silos des systèmes d'architecture monolithique peu maniables et de décentraliser data pour une responsabilisation et une évolutivité de bout en bout. La question est de savoir si Data Mesh convient à votre entreprise - ou pas, ou pas encore.

Contactez-nous

Data Mesh : la voie vers la décentralisation data