阅读我们的文章

.

data 工程领域发展迅速。本文介绍了我认为在未来几年中将会凸显的三大趋势。.

十年前,data 工程师的角色几乎不存在。但是,对这种特殊软件工程师的需求与日俱增。随着这一领域日趋成熟,工程师的角色也在不断演变。.

data 工程师的职责因公司而异,其角色在各地的发展速度也不尽相同。但我认为角色的变化体现在三个方面:

  • Data 工程师将大量利用 cloud 技术和 SaaS 产品
  • Data 工程师将减少编码时间,将更多时间用于监控
  • Data 工程师将从功能团队转为基础团队

让我们来详细了解一下。.

Data 工程师将大量利用 cloud 技术和 SaaS 产品

十年前,企业还依赖内部基础设施来存储 data。这就是为什么 第一批大型 data 技术是为内部部署环境构建的. .在这个时代,data 工程师花费了大量时间调整机器配置,却牺牲了创造业务价值的机会。.

那么, cloud 提供商承诺为您提供他们管理的服务. .因此,您可以专注于您的业务需求。这已经改变了游戏规则。.

现在,像 Snowflake 和 Databricks 这样的 cloud 提供商和技术公司已经让大型 data 变得轻而易举。data 生态系统也变得更加成熟。在 data 质量、data governance 或 data 摄取等特定领域出现了新的 data 初创公司。这些产品之间实现了无缝集成。.

data 工程师只需使用 Apache 基金会提供的一种工具就能满足特定需求的时代已经一去不复返了。他们有无数的工具来做同样的事情。如今,data 工程师有责任选择最好的工具。因此,他们需要对生态系统有充分的了解,知道如何进行基准测试和选择相关的决策标准。.

为正确的工作选择正确的工具并非易事。但整合工具以形成一致的 data platform 也是一项挑战。一些 data 工程师已经利用基础架构即代码来组装这些砖块并自动部署基础架构。我认为这将成为一项必备技能。.

Data 工程师将减少编码时间,将更多时间用于监控

data 工程师使用 Scala 和 Spark 开发复杂 ETL 管道的时代似乎已经过去。.

对于提取部分,你现在可以使用 Airbyte 等技术来安排从许多不同来源提取的工作。加载部分不再是痛点。例如,Snowflake 可以通过一条 SQL 命令轻松地将文件从 blob 存储加载到表中。.
就转变步骤而言,dbt 带来了一种新的模式,在这种模式中,你可以 在您的 data 仓库中改造您的 data 使用 SQL 作为主要语言。该系统 完成从 ETL 到 ELT 的转变.

因此,部署工作流程从未如此简单,我们可以说 谢谢 到现代 data 协议栈。现代 data 协议栈是一套技术,旨在降低 data 工作流程的复杂性,提高 data 团队的工作速度。有了现代 data 协议栈,data 分析员现在可以自主工作。他们不再需要 data 工程师的帮助来收集和转换原始 data。但这是否意味着 data 团队不再需要 data 工程师?😟
我可能有偏见,但我认为答案是否定的。.

My guess is that the role of data engineer will evolve towards a more ops-oriented role.

我的猜测是 data 工程师的角色将朝着更加面向行动的方向发展. .下一代 data 工程师将致力于提高整个公司的 data 可靠性。他们的职责是

  • 监控 data 工作流程的执行情况,并在发生事故时配置警报
  • 部署 data 用例的底层基础设施
  • 创建 CI/CD 管道,以验证代码的正确性并自动进行部署
  • 始终确保 data 的质量

与我们几年前注意到的软件开发领域软件可靠性工程师(SRE)的兴起类似,我们可能会在 data 领域看到类似的趋势。新的职位名称将会出现: data 可靠性工程师. .他们将负责 确保 data 准时到位并值得信赖.

我们将看到更多的 data 工程师负责定义服务级别指标 (SLI) 和服务级别目标 (SLO)。他们还将参与值班轮换并应对突发事件。.
data 工程师的日常工作会发生变化,但在组织内部的职位也会发生变化。.

Data 工程师将从功能团队转为基础团队

一直以来,data 工程师都是功能团队的成员。问题在于,这导致了 data 孤岛和缺乏全球一致性。因此,公司开始通过创建横向团队来调整自己。.

下一代 data 工程师将不会从事特定 data 产品的工作。他们的目标将是 提高产品团队的生产力. .为此,他们将负责提供一套正确的工具。这就是 data 网格范例的意义所在: 分布式所有权,由基础团队提供所有所需工具 以制造 data 产品。.

因此,下次当您需要为财务 reports 开发仪表板时,您就不需要一个由产品负责人、data 分析师和 data 工程师组成的功能团队了。data 分析师将是自主的,他将利用基础团队部署的工具,快速提取必要的 data,然后根据这些原始 data 计算 KPI。.

结论

观察水晶碗是一项艰巨的工作。上述观点存在一定的不确定性。但我希望这篇文章也能让您思考这个角色的未来,我也很乐意在评论中看到您的想法!

是时候把我的水晶碗放到一边了,请您看看我们的 空缺职位. Artefact 是思考本领域未来的正确场所。.

中号 Blog by Artefact。.

本文最初发表于 Medium.com.
在我们的 Medium Blog 上关注我们!