Le domaine de l'ingénierie data évolue rapidement. Cet article décrit trois grandes tendances qui, selon moi, prendront de l'ampleur dans les années à venir.
Le rôle d'un ingénieur data était pratiquement inexistant il y a dix ans. Mais le besoin de ce type particulier d'ingénieur logiciel s'est accru. Au fur et à mesure que le domaine est devenu plus mature, le rôle a évolué.
Les responsabilités d'un ingénieur data varient d'une entreprise à l'autre et la fonction n'évolue pas au même rythme partout. Mais je constate que la fonction évolue sous trois aspects :
Entrons dans les détails.
Data les ingénieurs exploiteront massivement les technologies en nuage et les produits SaaS
Il y a dix ans, les entreprises s'appuyaient sur une infrastructure sur site pour stocker leurs données data. C'est pourquoi les premières grandes technologies data ont été conçues pour des environnements sur site. À cette époque, les ingénieurs de data passaient beaucoup de temps à régler la configuration de leurs machines au détriment de la création de valeur commerciale.
Ensuite, les fournisseurs de services en nuage sont venus avec la promesse de fournir des services qu'ils gèrent pour vous. Vous pouvez ainsi vous concentrer sur les besoins de votre entreprise. Cela a changé la donne.
Aujourd'hui, les fournisseurs de services en nuage et les entreprises technologiques telles que Snowflake et Databricks ont facilité l'accès à data . L'écosystème data est également devenu plus mature. De nouvelles entreprises data ont vu le jour dans des domaines spécifiques tels que data quality, data governance ou data ingestion. L'intégration entre ces produits est transparente.
L'époque où les ingénieurs de data disposaient d'un outil de la Fondation Apache pour répondre à leurs besoins spécifiques est révolue. Ils disposent d'une myriade d'outils pour faire la même chose. Aujourd'hui, les ingénieurs de data ont la responsabilité de choisir les meilleurs outils. Ils doivent donc avoir une bonne connaissance de l'écosystème et savoir comment effectuer des analyses comparatives et choisir des critères de décision pertinents.
Il n'est pas facile de choisir le bon outil pour la bonne tâche. Mais intégrer des outils pour former une plateforme data cohérente est également un défi. Certains ingénieurs de data exploitent déjà l'infrastructure en tant que code pour assembler ces briques et automatiser le déploiement de l'infrastructure. Je pense que cela deviendra une compétence obligatoire.
Data les ingénieurs passeront moins de temps à coder et plus de temps à contrôler
L'époque où les ingénieurs de data développaient des pipelines ETL complexes en Scala et Spark semble révolue.
Pour l'extraction, vous pouvez désormais utiliser des technologies comme Airbyte pour programmer des tâches d'extraction à partir d'un grand nombre de sources différentes. Le chargement n'est plus un problème. Snowflake, par exemple, a facilité le chargement d'un fichier à partir d'un stockage blob dans une table en une seule commande SQL.
En ce qui concerne l'étape de transformation, dbt a apporté un nouveau paradigme dans lequel vous transformez votre data dans votre entrepôt data en utilisant SQL comme langage principal. Le passage de l'ETL à l'ELT est terminé.
Ainsi, le déploiement d'un flux de travail n'a jamais été aussi facile et nous pouvons dire merci à la pile moderne data . La pile moderne data est un ensemble de technologies visant à réduire la complexité des flux de travail data et à augmenter la vélocité de l'équipe data . Grâce à la pile moderne data , les analystes data peuvent désormais être autonomes. Ils n'ont plus besoin de l'aide des ingénieurs data pour collecter et transformer les données brutes data. Mais cela signifie-t-il que les ingénieurs data ne sont plus nécessaires dans les équipes data ? 😟
Je suis peut-être partial, mais je pense que la réponse est NON.
Je pense que le rôle de l'ingénieur data évoluera vers un rôle plus orienté vers les opérations. La prochaine génération d'ingénieurs data se concentrera sur l'amélioration de la fiabilité de data dans l'ensemble de l'entreprise. Leurs responsabilités seront les suivantes :
À l'instar de ce que nous avons observé dans le domaine du développement de logiciels il y a quelques années avec la montée en puissance des ingénieurs en fiabilité logicielle (SRE), nous pourrions assister à une tendance similaire dans le monde data . Un nouveau titre de poste apparaîtra : l'ingénieur de fiabilité data . Il sera chargé de veiller à ce que data soit disponible à temps et soit digne de confiance.
Nous verrons davantage d'ingénieurs data responsables de la définition des indicateurs de niveau de service (SLI) et des objectifs de niveau de service (SLO). Ils participeront également aux rotations d'astreinte et répondront aux incidents.
Le quotidien d'un ingénieur data évoluera, mais sa position au sein de l'organisation changera également.
Data les ingénieurs changeront d'équipe, passant d'une équipe chargée des fonctionnalités à une équipe chargée des fondations
Historiquement, les ingénieurs de data étaient membres d'équipes de développement. Le problème est que cela a conduit à data des silos et à un manque de cohérence globale. C'est pourquoi les entreprises ont commencé à s'adapter en créant des équipes transversales.
La prochaine génération d'ingénieurs data ne travaillera pas sur un produit data particulier. Leur objectif sera de rendre les équipes de produits plus productives. Pour ce faire, ils auront la responsabilité de fournir l'ensemble des outils adéquats. C'est la raison d'être du paradigme de data mesh : une propriété distribuée avec une équipe de base qui fournit tous les outils nécessaires à la construction des produits data .
Ainsi, la prochaine fois que vous devrez développer un tableau de bord pour des rapports financiers, vous n'aurez pas besoin d'une équipe composée d'un propriétaire de produit, d'un analyste data et d'un ingénieur data . L'analyste data sera autonome et exploitera les outils déployés par l'équipe de base, ce qui lui permettra d'extraire rapidement les données nécessaires data et de calculer les indicateurs clés de performance à partir de ces données brutes data.
Conclusion
Regarder le bol de cristal est un exercice difficile. Les opinions exprimées ci-dessus comportent une part d'incertitude. Mais j'espère que cet article vous fera réfléchir à l'avenir de la fonction et je serais heureux de lire vos réflexions dans les commentaires !
Il est temps de laisser mon bol de cristal de côté pour un moment et de vous inviter à consulter nos postes vacants. Artefact est l'endroit idéal pour réfléchir à l'avenir de notre secteur.