Regardez le replay de l'atelier (en français) | Pour activer les sous-titres en anglais, cliquez sur l'icône "CC" puis sur "Settings". Ensuite, choisissez l'option "Subtiles" puis "Auto-translate" vers l'anglais ou la langue de votre choix.

Le 27 septembre, lors de la conférence Big Data & AI Paris 2022, Justine Nerce, Data Consulting Partner chez Artefact et Killian Gaumont, Data Consulting Manager chez Artefact, ainsi qu'Amine Mokhtari, Data Analytics Specialist chez Google Cloud, ont animé un atelier sur le maillage des Data . Le maillage des Data est l'un des sujets les plus brûlants dans l'industrie des data aujourd'hui. Mais qu'est-ce que c'est ? Quels sont ses avantages pour les entreprises ? Et surtout, comment les entreprises peuvent-elles le déployer avec succès dans leurs organisations ?

Data mesh est un nouveau modèle organisationnel et technologique de gestion décentralisée data . Il s'agit d'une approche d'architecture distribuée pour la gestion des données analytiques data, qui permet aux utilisateurs d'accéder et d'interroger facilement data là où elles se trouvent, sans les transporter d'abord vers un lac ou un entrepôt data . Data mesh est basé sur quatre principes fondamentaux :

  • Propriété orientée vers le domaine data ,
  • Data en tant que produit,

  • Gouvernance fédérée data ,

  • data en libre-service en tant que plateforme.

L'atelier était divisé en trois parties :

  1. Valeur commerciale : Pourquoi adopter une approche produit/maille ? Comment sert-elle les objectifs commerciaux de l'entreprise ?
  2. Approche de déploiement : Comment réussir ? Quelles sont les étapes à suivre et le modèle d'organisation à utiliser ?
  3. Pile technologique : Pourquoi choisir Google comme solution technologique ?

Pour lancer la discussion sur la valeur commerciale, Justine Nerce a expliqué : "L'une des meilleures raisons d'adopter une approche produit/maillage est qu'elle élimine deux cercles vicieux. Le premier consiste à "réinventer la roue" chaque fois qu'une nouvelle utilisation de data apparaît : une nouvelle équipe est formée et crée son propre pipeline data pour répondre à ses besoins spécifiques. Le résultat ? Aucune possibilité de partage, aucune possibilité de réutilisation des technologies choisies. La seconde est la "construction d'un monolithe" lorsqu'une nouvelle utilisation de data aboutit dans le carnet de commandes d'une équipe centrale data , puis est confiée à des équipes spécialisées nondata qui procèdent à une collecte massive de data , à une transformation générique et au développement de cas d'utilisation, avec le risque de ne pas répondre aux besoins des utilisateurs."

Mais avec une approche produit, le cercle vicieux se transforme en cercle vertueux. Lorsqu'une nouvelle utilisation de data émerge, au lieu de construire quelque chose de nouveau, data mesh recherche ce qui existe déjà et peut être réutilisé. Il identifie les domaines déjà chargés de traiter des sujets donnés et recherche les produits data existants qui peuvent accélérer la création et le développement de nouveaux besoins, soit tels quels, soit dans le cadre de processus itératifs visant à créer de nouveaux produits personnalisés. Tous ces produits peuvent être publiés dans le catalogue de l'entreprise.

Comment les produits data créent de la valeur pour l'entreprise

Data existent depuis longtemps dans les entreprises, mais dans data mesh, les usages et les qualifications de data sont essentiellement différents, explique Killian Gaumont :

"Le produit data d'aujourd'hui est une combinaison de data mis à la disposition de l'entreprise pour un usage professionnel et de caractéristiques spécifiques qui facilitent l'utilisation et la réutilisation de data".

Pour être inclus dans le maillage data , un produit data doit être :

  1. Dirigé par une équipe de propriétaires dévoués ;
  2. Orienté vers l'utilisateur final et largement adopté ;
  3. De qualité tout au long de son cycle de vie ;
  4. Réutilisable tel quel ou pour construire d'autres produits ;
  5. Accessible à tous les utilisateurs ;
  6. Normalisé pour que tout le monde parle la même langue.

Sur le site Artefact, les produits data sont classés en trois familles différentes. "Il y a les produits bruts tels que les bases de données utilisées pour les processus d'entreprise - qui sont néanmoins des produits data ", assure M. Killian. "Ensuite, il y a les produits data enrichis d'algorithmes personnalisés ou de recommandations de produits, comme Interaction 360°. Au sommet, on trouve des produits finis alignés sur l'usage, comme les tableaux de bord. Il s'agit de produits grand public, conçus pour créer de la valeur en liant le développement du produit à la stratégie de l'entreprise.

Déploiement de data mesh dans l'entreprise

ArtefactL'approche de data pour le déploiement du maillage commence à petite échelle, en donnant la priorité aux cas d'utilisation et aux points problématiques de l'entreprise. Tous les domaines et les produits data nécessaires pour chaque cas d'utilisation de l'entreprise priorisé (de la matière première data aux produits finis) sont ensuite identifiés. Une future équipe est constituée pour développer les premiers produits et fixer des normes. Il est ensuite possible d'identifier les produits connexes qui seront construits à l'avenir.

Il y a trois conditions préalables au déploiement de data mesh. La première : briser les silos.

"Pour que data mesh soit un succès, nous devons évoluer vers un modèle organisationnel qui brise les silos entre l'informatique, data et l'entreprise pour avoir des équipes de plate-forme composées d'équipes interdomaines et inter-produits, dans toutes les entités", déclare M. Killian. "Il est évident que cela ne se fera pas du jour au lendemain. Mais nous avons déjà commencé à briser les silos en intégrant les équipes commerciales dans les équipes informatiques data afin que les équipes de produits qui développent les produits data puissent travailler plus efficacement."

Le deuxième prérequis est le propriétaire du produit Data , qui joue un rôle clé dans la coordination de la mise en œuvre du maillage data . Le propriétaire du produit data a trois missions : concevoir, construire et promouvoir les produits data . Les deux premières missions sont explicites ; la troisième est tout aussi importante, car la force d'un produit data réside dans le fait qu'il est adopté et utilisé par l'entreprise. "Le propriétaire du produit data est chargé de veiller à ce que le produit data soit documenté, compréhensible et accessible aux utilisateurs, et aligné sur les besoins de l'entreprise. Les critères de sa réussite sont ses indicateurs clés de performance : utilisation, performance technique, qualité data ", ajoute Killian.

La dernière condition préalable est que l'entreprise soit en mesure de définir clairement et continuellement ses domaines data et, une fois que le modèle a prouvé sa valeur, qu'elle soit capable de passer à l'échelle supérieure.

Voici les trois questions les plus fréquemment posées par les clients qui mettent en œuvre le maillage data , ainsi que les recommandations de Artefactpour définir avec succès les domaines, mesurer la réussite et savoir quand il est opportun de passer à l'échelle supérieure.

La pile technologique : gérer le maillage des data avec Google Cloud

"La première chose dont data et les équipes informatiques ont besoin pour mettre en œuvre data mesh est la capacité de rendre leurs data découvrables et accessibles en les publiant dans un catalogue data ", commence Amine Mohktari. "Pour ce faire, Google dispose d'un premier pilier, Big Query, qui permet la création d'ensembles de données partageables. Le deuxième pilier, le catalogue lui-même, est rendu possible par Analytics Hub, qui crée des liens vers tous les jeux de données créés par les différents membres de l'organisation ou ses partenaires afin que les abonnés puissent y accéder facilement."

"Il est important de comprendre que seuls des liens vers les data sont créés, jamais des copies. Grâce à ce système, les abonnés peuvent utiliser les data comme si elles leur appartenaient, même si elles restent dans leur emplacement physique d'origine. Cela reste vrai même si les data sont stockées dans un autre cloud", assure M. Amine.

L'expérience de l'utilisateur est un principe majeur du système et se reflète dans tous les aspects du maillage de data , non seulement en facilitant le partage de data et la composition de data , mais aussi en gardant data disponible en permanence, quel que soit le nombre d'utilisateurs actifs.

En ce qui concerne la sécurité et la gouvernance de data , Google a tout prévu avec Dataplex, sa structure intelligente data qui permet d'unifier les données distribuées data et d'automatiser la gestion et la gouvernance de data sur l'ensemble de ces données data afin de permettre l'analyse à grande échelle. Avec un cadre de gestion des identités et des accès (IAM) permettant d'attribuer une identité unique à chaque data consommateur, "Dataplex offre aux entreprises un ensemble de piliers techniques qui leur permettent de mettre en œuvre n'importe quelle gouvernance de la manière la plus simple possible", explique M. Amine.

"Chez Google Cloud, notre objectif est de vous fournir une plateforme de data sans serveur qui permettra à vos équipes de data se concentrer sur des domaines tels que les processus et les cas d'utilisation métier, où elles ont une valeur ajoutée que personne d'autre ne peut produire."

 Dataplex de Google offre aux utilisateurs une vue à 360° des produits publiés sur data et de leur qualité.

Conclusion : trois pièges à éviter lors de la mise en œuvre du maillage data

NE PAS > Rester bloqué dans une vision de projet au lieu d'une vision de produit
FAIRE > Définir des priorités data produits en fonction des différents usages ;

NE PAS > Développer le nouveau modèle trop rapidement
FAIRE > Tester le modèle à l'aide d'un modèle opérationnel bien défini ;

À NE PAS FAIRE > Déployer un écosystème technique trop complexe
FAIRE > Garder la pile technique petite pour avoir le plus grand nombre d'acteurs possible.