What does the future of data engineering look like?

Autor

Benoît Goujon

Data Engineer bei Artefact

Lesen Sie unseren Artikel über

Der Bereich der data-Technik entwickelt sich schnell weiter. In diesem Artikel werden drei wichtige Trends beschrieben, die sich meiner Meinung nach in den kommenden Jahren durchsetzen werden.

Die Rolle eines data-Ingenieurs war vor zehn Jahren fast nicht existent. Aber der Bedarf an dieser speziellen Art von Software-Ingenieur ist gestiegen. Als das Feld reifer wurde, entwickelte sich die Rolle weiter.

Die Aufgaben eines data-Ingenieurs variieren von einem Unternehmen zum anderen, und die Rolle entwickelt sich nicht überall im gleichen Tempo. Aber ich sehe, dass sich die Rolle in drei Aspekten verändert:

Data-Ingenieure werden die cloud-Technologien und SaaS-Produkte massiv nutzen
Data-Ingenieure verbringen weniger Zeit mit dem Programmieren und mehr mit der Überwachung
Data-Ingenieure werden von Feature-Teams zu Foundation-Teams wechseln

Lassen Sie uns auf die Details eingehen.

Data-Ingenieure werden die cloud-Technologien und SaaS-Produkte massiv nutzen

Vor zehn Jahren verließen sich Unternehmen bei der Speicherung ihrer data noch auf die Infrastruktur vor Ort. Das ist der Grund die ersten großen data-Technologien wurden für Vor-Ort-Umgebungen entwickelt. In dieser Zeit verbrachten die data-Ingenieure viel Zeit damit, die Konfiguration ihrer Maschinen zu optimieren - auf Kosten der Wertschöpfung.

Dann, cloud-Anbieter kamen mit dem Versprechen, Dienste anzubieten, die sie für Sie verwalten. So können Sie sich auf Ihre geschäftlichen Anforderungen konzentrieren. Das ist ein echter Wendepunkt.

Jetzt haben cloud-Anbieter und Technologieunternehmen wie Snowflake und Databricks große data einfach gemacht. Auch das data-Ökosystem ist reifer geworden. Neue data-Startups sind in spezifischen Bereichen wie data-Qualität, data governance oder data-Ingestion entstanden. Die Integration zwischen diesen Produkten ist nahtlos.

Die Zeiten, in denen data-Ingenieure ein einziges Tool der Apache Foundation für ihren speziellen Bedarf hatten, sind längst vorbei. Sie haben eine Vielzahl von Tools, um die gleiche Aufgabe zu erledigen. Heutzutage liegt es in der Verantwortung der data-Ingenieure, die besten Tools auszuwählen. Daher müssen sie das Ökosystem gut kennen und wissen, wie sie Benchmarks durchführen und relevante Entscheidungskriterien auswählen können.

Die Wahl des richtigen Werkzeugs für die richtige Aufgabe ist nicht einfach. Aber auch die Integration von Tools zu einem einheitlichen data platform ist eine Herausforderung. Einige data-Ingenieure setzen bereits Infrastruktur als Code ein, um diese Bausteine zusammenzusetzen und die Bereitstellung der Infrastruktur zu automatisieren. Ich sehe, dass dies zu einer obligatorischen Fähigkeit wird.

Data-Ingenieure verbringen weniger Zeit mit dem Programmieren und mehr mit der Überwachung

Die Zeit, in der data-Ingenieure komplexe ETL-Pipelines in Scala und Spark entwickelten, scheint vorbei zu sein.

Für den Teil der Extraktion können Sie jetzt Technologien wie Airbyte verwenden, um Extraktionsaufträge aus vielen verschiedenen Quellen zu planen. Das Laden von Daten ist nicht länger ein Problem. Mit Snowflake ist es beispielsweise ganz einfach, eine Datei aus einem Blob-Speicher mit einem Einzeiler-SQL-Befehl in eine Tabelle zu laden.
Was den Schritt der Transformation betrifft, so hat dbt ein neues Paradigma gebracht, in dem Sie Ihr data in Ihr data-Lager umwandeln mit SQL als Hauptsprache. Die Der Wechsel von ETL zu ELT ist abgeschlossen.

Die Implementierung eines Workflows war also noch nie so einfach und wir können sagen Dankeschön zum modernen data-Stack. Der moderne data-Stack ist eine Reihe von Technologien, die darauf abzielen, die Komplexität von data-Workflows zu reduzieren und die Geschwindigkeit von data-Teams zu erhöhen. Dank des modernen data-Stacks können data-Analysten jetzt autonom arbeiten. Sie benötigen nicht mehr die Hilfe von data-Ingenieuren, um data-Rohdaten zu sammeln und umzuwandeln. Aber bedeutet das, dass data-Ingenieure in data-Teams nicht mehr notwendig sind? 😟
Ich bin vielleicht voreingenommen, aber ich denke, die Antwort ist NEIN.

My guess is that the role of data engineer will evolve towards a more ops-oriented role.

Meine Vermutung ist, dass die Die Rolle des data-Ingenieurs wird sich in Richtung einer stärker operativ ausgerichteten Rolle entwickeln. Die nächste Generation von data-Ingenieuren wird sich auf die Verbesserung der data-Zuverlässigkeit im gesamten Unternehmen konzentrieren. Ihre Aufgaben werden sein:

Überwachung der Ausführung von data-Workflows und Konfiguration von Warnmeldungen im Falle von Zwischenfällen
die zugrunde liegende Infrastruktur für data-Anwendungsfälle bereitstellen
CI/CD-Pipelines erstellen, um die Korrektheit des Codes zu überprüfen und die Bereitstellung zu automatisieren
data-Qualität zu jeder Zeit gewährleisten

Ähnlich wie bei der Softwareentwicklung vor einigen Jahren mit dem Aufkommen der Software Reliability Engineers (SRE), könnte sich ein ähnlicher Trend auch in der data-Welt abzeichnen. Eine neue Berufsbezeichnung wird auftauchen: der data-Zuverlässigkeitsingenieur. Sie werden für folgende Aufgaben zuständig sein Sicherstellen, dass data pünktlich verfügbar und vertrauenswürdig ist.

Wir werden mehr data-Ingenieure sehen, die für die Definition von Service Level Indicators (SLI) und Service Level Objectives (SLO) verantwortlich sind. Sie werden auch an Bereitschaftsdiensten teilnehmen und auf Vorfälle reagieren.
Der Arbeitsalltag eines data-Ingenieurs wird sich weiterentwickeln, aber auch die Position innerhalb des Unternehmens wird sich verändern.

Data-Ingenieure werden von Feature-Teams zu Foundation-Teams wechseln

In der Vergangenheit waren die data-Ingenieure Mitglieder von Feature-Teams. Das Problem war, dass dies zu data-Silos und einem Mangel an globaler Konsistenz führte. Deshalb haben die Unternehmen begonnen, sich anzupassen und transversale Teams zu bilden.

Die nächste Generation von data-Ingenieuren wird nicht an einem bestimmten data-Produkt arbeiten. Ihr Ziel wird es sein Produktteams produktiver machen. Um dies zu tun, müssen sie die richtigen Werkzeuge bereitstellen. Genau darum geht es beim data Mesh-Paradigma: verteilte Eigentümerschaft mit einem Gründungsteam, das alle erforderlichen Tools bereitstellt um data-Produkte herzustellen.

Wenn Sie also das nächste Mal ein Dashboard für finanzielle reports entwickeln müssen, brauchen Sie kein Feature-Team, das aus einem Product Owner, einem data-Analysten und einem data-Ingenieur besteht. Der data-Analyst wird autonom sein und die Tools nutzen, die das Basisteam eingesetzt hat, um schnell die notwendigen data zu extrahieren und dann KPIs aus diesen rohen data zu berechnen.

Fazit

Der Blick in die Kristallkugel ist eine schwierige Übung. Die oben geäußerten Meinungen sind mit einer gewissen Unsicherheit behaftet. Aber ich hoffe, dass dieser Artikel auch Sie zum Nachdenken über die Zukunft der Rolle anregt, und ich würde mich freuen, Ihre Gedanken in den Kommentaren zu lesen!

Es ist an der Zeit, meine Kristallkugel für einen Moment beiseite zu lassen und Sie einzuladen, sich unsere Offene Stellen. Artefact ist der richtige Ort, um über die Zukunft unserer Branche nachzudenken.

Mittel Blog von Artefact.

Dieser Artikel wurde ursprünglich veröffentlicht auf Medium.com.
Folgen Sie uns auf unserem Medium Blog !

Unseren Artikel lesen

Kontaktieren Sie uns

Wie sieht die Zukunft der data-Technik aus?