Dans cet article, Pascal Coggia, Managing Partner à Artefact UK, explique ce qu'est et ce que n'est pas Data Mesh, pourquoi il s'agit autant d'un état d'esprit que d'une approche, et quels sont ses cas d'utilisation, ses avantages et ses défis.

Qu'est-ce que Data Mesh ? En quoi est-il différent d'un lac data ?

L'architecte original du terme est Zhamak Dehghani, un consultant de Thoughtworks et évangéliste pour la décentralisation data . En termes simples, Data Mesh est une approche d'architecture distribuée pour la gestion des données analytiques data. Il permet aux utilisateurs finaux d'accéder facilement aux données et de les interroger data là où elles se trouvent, sans les transporter d'abord vers un lac ou un entrepôt data . Une stratégie décentralisée Data Mesh traite data comme un produit et fournit aux équipes spécifiques à un domaine data la propriété par le biais d'une plateforme en libre-service qui intègre la gouvernance data .

Data Les lacs sont des zones de stockage à gouvernance minimale pour les domaines bruts data. Ils étaient destinés à fournir un accès illimité à data afin d'éviter le goulot d'étranglement des entrepôts data centralisés et étroitement gérés, mais ils ont eu tendance à souffrir de la mauvaise qualité de data et de problèmes de découvrabilité. Certains projets de lacs gouvernés data ont abordé ces questions avec un certain succès, mais ils ont tendance à réduire l'accessibilité relative du site data . Data Mesh vise à résoudre ces problèmes par la décentralisation, évitant ainsi complètement ces "marécagesdata ".

Qu'entend-on par "data en tant que produit" ?

Je pense que c'est un peu comme le magasin d'applications. Vous téléchargez simplement une application lorsque vous voulez faire autre chose. Pourquoi n'en serait-il pas de même pour data? Pensez-y de manière structurelle : quels sont les composants d'un produit data ?

  • Il doit pouvoir être découvert : les gens doivent pouvoir trouver le produit data ;

  • Il doit être adressable - les gens doivent savoir comment interagir avec lui ;

  • Il doit se décrire lui-même ;

  • Il doit être sûr et digne de confiance ; il doit offrir l'interopérabilité.

Tout cela suggère qu'un produit data repose sur un tissu qui lui permet d'interagir. Il n'est pas isolé. Vous ne pouvez pas vous contenter d'assembler quelques data et de les placer dans un seau S3 et de les qualifier de produits data . Il faut l'entourer de propriété et de gouvernance.

Quels sont les avantages pour les entreprises ?

Data Mesh offre de nombreux avantages aux organisations et aux équipes interfonctionnelles :

  • La décentralisation de data améliore la vitesse et l'accessibilité, de sorte que data est beaucoup plus facile à découvrir et à utiliser pour tous les utilisateurs de l'entreprise.

  • Comme les équipes embarquent leurs propres data et gèrent leurs propres produits data , elles peuvent les visualiser et les rendre opérationnels comme elles l'entendent, ce qui stimule l'innovation.

  • Les décisions et les délais de mise sur le marché seront accélérés, ce qui se traduira par une augmentation du chiffre d'affaires et une amélioration de l'engagement et de la fidélisation des clients - et, en fin de compte, par une réduction des coûts.

  • L'agilité de l'entreprise en général s'en trouve améliorée, car les capacités des produits ne sont mises en place que là où elles sont nécessaires, et non pas à l'échelle de l'entreprise.

Quels sont les obstacles à l'adoption de Data Mesh ?

Il est important de se rappeler que Data Mesh ne nécessite pas seulement un changement technologique, mais aussi un changement d'état d'esprit. Les organisations doivent apprendre à considérer data comme un produit, ainsi que la gouvernance et la propriété de data . Faire passer les entreprises d'une propriété centralisée à une propriété décentralisée et les organisations d'un pipeline à un produit, où les domaines data sont la première préoccupation, va demander un certain travail.

Parmi les autres problèmes, citons ceux cités par Deloitte :

  • Duplication de data entre différents domaines : lorsque data est réaffecté pour répondre aux besoins d'un nouveau domaine qui diffère du domaine source, des redondances apparaissent et peuvent avoir un impact potentiel sur l'utilisation des ressources et le coût de la gestion de data .

  • Mise en œuvre de la gouvernance fédérée data et de la conformité à la qualité : avec la coexistence de produits et de pipelines data indépendants, les principes de qualité peuvent facilement être négligés, ce qui se traduit par une dette technique importante. Ces responsabilités et principes doivent être identifiés et fédérés de manière appropriée.

  • Une gestion du changement importante est nécessaire : pour adopter les opérations décentralisées de Data Mesh, des efforts considérables de gestion du changement seront nécessaires.

  • Les choix technologiques déterminent les capacités globales de la plate-forme data . Par conséquent, les choix technologiques qui sont à la fois normalisés dans l'ensemble de l'organisation et à l'épreuve du temps pour toutes les capacités nécessaires data doivent être abordés de manière pratique. De mauvaises décisions technologiques peuvent facilement aboutir à des produits data qui augmentent la dette technique au fil du temps.

  • Data Mesh n'est pas conçu pour consolider tous les sites data de l'entreprise en un seul rapport : Bien que l'objectif principal soit data l'accessibilité, la liberté doit exister à l'intérieur d'un cadre. Dans Data Mesh, data la propriété et data les compétences sont réparties entre des équipes interfonctionnelles, de sorte que des éléments clés, tels qu'un cadre de métadonnées cohérent et des plates-formes communes, font toujours partie d'une mise en œuvre réussie de Data Mesh.

Quand une entreprise est-elle prête à adopter une stratégie Data Mesh ?

Cela dépend du degré de préparation de l'entreprise. Mais cela dépend aussi de la personne à qui l'on s'adresse. Un Chief Data Officer qui a construit une organisation centrale massive peut ne pas être prêt pour Data Mesh parce qu'il devra d'abord établir comment fédérer ces fonctions. Mais la plupart des chefs d'entreprise comprennent la nécessité de démocratiser l'actif data vers la périphérie et l'entreprise, car ils sont souvent frustrés par l'approche centralisée.

Il faut également savoir ce qui doit se passer au niveau technique pour pouvoir contrôler et régir le maillage, car si vous ne le mettez pas en place correctement, il peut se transformer en Far West. Il y a donc une série d'étapes à suivre.

  • La première étape consiste à procéder à un examen de l'architecture afin de définir les composants essentiels d'une architecture Data Mesh potentielle que l'entreprise possède déjà et la manière dont ils peuvent être exploités pour commencer à donner aux personnes les moyens de constituer des équipes de produits.

  • Existe-t-il une équipe centralisée capable de créer la plate-forme sur laquelle le site Data Mesh sera construit ? Cette plateforme doit être présente dès le départ. L'infrastructure est ce qui permet la capacité de distribution.

  • Veiller à ce que le projet bénéficie du soutien et de l'engagement de l'entreprise et des parties prenantes afin de réussir à tous les niveaux.

  • Le projet dispose-t-il de l'investissement nécessaire pour construire le Data Mesh et des capacités pour le gérer ? Ces deux éléments sont en effet essentiels.

  • Une fois ces étapes franchies, il est temps de commencer à constituer les équipes chargées des produits.

La transition vers Data Mesh est un parcours progressif car tous les éléments que vous possédez déjà - data lakes, data warehouses - doivent être connectés à Data Mesh, ils ne peuvent pas être éliminés. Les gens voudront ces informations, la valeur et la gouvernance qui les entourent déjà.

Quels types d'entreprises déploient avec succès Data Mesh ?

Actuellement, Data Mesh est adopté avec succès dans le secteur des services financiers. ING en est un bon exemple. Il est logique pour les banques d'utiliser Data Mesh - il prend en charge une gouvernance data plus forte et offre donc une sécurité accrue. Avec Data Mesh, les systèmes de détection des fraudes n'ont pas besoin de se connecter à d'autres systèmes et de tirer le même data tous les jours. Au lieu de cela, les organisations peuvent créer des produits data axés sur le domaine que leurs experts en détection d'anomalies peuvent utiliser pour créer de meilleurs modèles et résultats.

Zalando, la principale plateforme européenne de vente en ligne de produits de mode, a décentralisé son site data en 2020 et a transformé son immense lac data en Data Mesh. Pour ce qui est des autres secteurs, nous devrons voir comment les choses se passent au cas par cas. En effet, toute analyse de rentabilité de Data Mesh devra être adaptée aux défis spécifiques de l'organisation - et du secteur - et ceux-ci sont en constante évolution.

Data Les stratégies de gestion sont en constante évolution et les organisations doivent être prêtes à s'adapter aux changements pour rester compétitives. Data Mesh est un moyen de briser les silos des systèmes d'architecture monolithique encombrants et de décentraliser data pour une responsabilisation et une évolutivité de bout en bout. La question est de savoir si Data Mesh convient à votre entreprise - ou pas, ou pas encore.