在本文中,Artefact UK 的 Managing Partner Pascal Coggia 解释了什么是 Data Mesh,什么不是 Data Mesh,为什么它既是一种思维方式,也是一种方法,以及它的使用案例、优势和挑战。.

什么是 Data 网目?它与 data 湖有何不同?

该词的原创者是扎马克-德哈尼(Zhamak Dehghani)。 思想工作坊 data 分散化的顾问和传播者。简单地说,Data Mesh 是一种管理分析性 data 的分布式架构方法。它允许终端用户轻松访问和查询其所在的 data,而无需先将其传输到 data 湖或仓库。分散式 Data Mesh 战略将 data 视为一种产品,并通过嵌入 data governance 的自助服务平台为特定领域团队提供 data 所有权。.

Data 湖是原始域 data 的最小管理存储区。它们旨在提供对 data 的无限访问,以避免集中式、严格管理的 data 仓库的瓶颈,但它们往往存在 data 质量差和可发现性问题。某些受管理的 data 湖项目在解决这些问题方面取得了一些成功,但它们往往会因此降低 data 的相对可访问性。Data Mesh 的目标是通过分散化解决这些难题,从而完全避免这些所谓的 “data 沼泽”。.

什么叫 “data 作为一种产品”?

我觉得这有点像应用程序商店。当你想做其他事情时,只需下载一个应用程序。为什么 data 不能这样呢?从结构上考虑:data 产品由哪些部分组成?

  • 它必须是可发现的:人们需要能够找到 data 产品;;

  • 它需要可寻址--人们需要知道如何与它互动;;

  • 它需要自我描述;;

  • 它需要安全、可信;它需要提供互操作性。.

所有这一切都表明,data 产品是建立在一个可以相互作用的结构之上的。它不是孤立的。你不能只是把一些 data 丢在一起,然后把它塞进 S3 桶里,就称之为 data 产品。你必须对其进行所有权和管理。.

对企业有什么好处?

Data Mesh 可为企业和跨职能领域团队带来许多好处:

  • 通过分散管理 data,它提高了速度和可访问性,因此 data 更容易被公司的每个用户发现和使用。.

  • 由于各团队可以使用自己的 data 并管理自己的 data 产品,因此他们可以根据自己的需要对其进行可视化和操作,从而推动创新。.

  • 决策和上市时间将加快,这将增加收入,提高客户参与度和忠诚度,并最终降低成本。.

  • 由于产品功能只在需要的地方设置,而不是在企业基础上设置,因此业务灵活性总体上得到了提高。.

采用 Data 网格面临哪些挑战?

重要的是要记住,Data Mesh 不仅需要一个 技术性 转变,需要 定势 转变。企业必须学会把 data 作为一种产品来考虑,把 data governance 和所有权。将企业从集中式所有权转变为分散式所有权,将组织从管道式转变为产品式(data 域是首要关注点),这些都需要一些努力。.

其他一些问题包括 德勤:

  • 不同域之间 data 的重复:当 data 被重新用于满足不同于源域的新域的需求时,就会出现冗余,并可能对资源利用率和 data 管理成本产生潜在影响。.

  • 实施联合 data governance 和质量合规性:由于独立的 data 产品和管道并存,质量原则很容易被忽视,导致大量技术债务。必须确定这些责任和原则,并将其适当地联合起来。.

  • 需要进行重大变革管理:要采用分散式 Data 网格操作,需要进行重大变革管理。.

  • 技术选择决定了 data platform 的整体能力。因此,必须从实际出发,选择既能在整个组织内实现标准化,又能满足未来需要的所有 data 功能的技术。不当的技术决策很容易导致 data 产品随着时间的推移而增加技术债务。.

  • Data Mesh 的设计目的不是将所有企业范围内的 data 整合到一份报告中:虽然总体目标是 data 可访问性,但在框架内应有自由度。在 Data Mesh 中,data 所有权和 data 技能分布在跨职能领域团队中,因此关键要素(如一致的元 data 框架和通用平台)仍是成功实施 Data Mesh 的一部分。.

公司何时准备采用 Data 网状战略?

这取决于公司的准备程度。但这也取决于你在与谁交谈。建立了庞大中央机构的首席 Data 官可能还没有为 Data Mesh 做好准备,因为他们需要首先确定如何将这些功能联合起来。但大多数企业领导者都明白,需要将 data 资产民主化,使其面向边缘和业务,因为他们往往对集中式方法感到沮丧。.

你还需要知道在工程层面上必须发生什么,以便能够控制和管理网格,因为如果你没有正确设置,它就会变成狂野的西部。因此,需要遵循一系列步骤。.

  • 第一步是进行架构审查,以确定公司已拥有的潜在 Data Mesh 架构的任何核心组件,以及如何利用这些组件开始授权员工建立产品团队。.

  • 是否有一个集中的团队可以创建 Data Mesh 的平台?这个平台必须从一开始就存在。基础设施是实现分布式能力的基础。.

  • 确保项目得到企业和利益相关者的支持和参与,以便在各个层面取得成功。.

  • 项目是否有必要的投资来建设 Data Mesh,以及管理它的能力?因为二者缺一不可。.

  • 完成这些步骤后,就可以开始组建产品团队了。.

向 Data Mesh 过渡是一个渐进的过程,因为您已经拥有的所有元素 - data 湖、data 仓库 - 都需要连接到 Data Mesh,它们不能被丢弃。人们会想要这些信息,以及已经包含在这些信息中的价值和管理。.

哪些公司成功部署了 Data Mesh?

目前,Data Mesh 已成功应用于金融服务领域。. ING 就是一个很好的例子。对银行来说,使用 Data Mesh 是有意义的,因为它支持更强大的 data governance,因此能提供更高的安全性。有了 Data Mesh,欺诈检测系统就不需要每天连接到其他系统并提取相同的 data。相反,企业可以创建以领域为重点的 data 产品,其异常检测专家可以利用这些产品创建更好的模型和结果。.

Zalando, 作为欧洲领先的时尚在线平台,该公司在 2020 年对其 data 进行了去中心化,并将其庞大的 data 湖变成了 Data 网格。至于其他行业,我们将根据具体情况拭目以待。因为您为 Data Mesh 创建的任何商业案例都需要根据企业和行业的具体挑战量身定制,而这些挑战是不断变化的。.

Data 管理战略总是在不断发展变化,企业需要做好适应变化的准备,以保持竞争力。Data Mesh 是打破臃肿的单体架构系统孤岛,分散 data 以实现端到端责任制和可扩展性的一种方法。问题是,Data Mesh 是否适合您的企业?.