作者
作者
作者
在当今的数字化时代,企业面临的挑战是如何跟上前所未有的 data 生成速度,以及收集各类 data 的大量企业系统和数字技术。与此同时,企业还需要快速、高效地分析这些海量 data 以生成洞察力和情报,从而最大限度地发挥其业务价值。因此,大型 data platforms 已成为企业高效部署 data 解决方案的重要基础,这些解决方案可提供及时的 data-driven 业务决策和竞争优势。.
“Data分析和智能解决方案正在企业中大量涌现,以促进业务增长。各组织应将大型 data platforms 作为大规模部署 data 解决方案的坚实基础。这些 data platforms 应该是为业务而专门构建的,因为只有当它们能够实现业务洞察和智能时,它们才是最优秀的;而且它们的构建应该面向未来,从 data 基础设施服务和技术的不断进步中获益。”Oussama Ahmad,Data 咨询合作伙伴,Artefact
大型 Data 平台的主要目标
大型 data platforms 旨在打破 data 孤岛,整合实施高级 data 分析和智能解决方案所需的不同类型 data 来源。它们为收集、存储和分析来自多个来源的大量 data 提供了可扩展的灵活基础设施。这些平台应利用一流的 data 管理服务和技术,并实现三个关键目标:
大型 Data 平台的基础设施
大型 data platform 有几种基础架构选择:完全内部部署、完全 cloud 或混合 cloud/ 内部部署,每种选择都有自己的优势和挑战。各组织在为其大型 data platform 选择最合适的基础架构选项时应考虑一系列因素,包括 data 安全性和驻留要求、data 源集成、功能和可扩展性要求以及成本和时间。完全基于 cloud 的架构可提供更低且更可预测的成本、开箱即用的服务和集成以及快速可扩展性,但缺乏对硬件的控制,并且可能不符合 data 隐私和居住地法规。完全内部部署的架构可提供对硬件和 data 安全的完全控制,通常符合隐私和居住地法规,但成本较高,且需要长期的扩展规划。cloud/ 内部部署混合架构可提供两全其美的方案,便于日后完全迁移到 cloud,但可能需要更复杂的设置。.
许多组织选择混合基础架构作为其大型 data platforms 的基础架构,这是因为组织要求将高度敏感的 data (如客户和财务 data)保存在自己的服务器上,或者因为缺乏符合本地 data 隐私和驻留要求的政府认证 cloud 服务提供商(CSP)。这些组织还倾向于在 cloud 中保留 cloud 本机或非敏感 data 源,以优化存储和计算资源成本,并利用 CSP 提供的开箱即用 data 分析和机器学习服务。其他对 data 在公司或国家内的驻留没有组织或监管要求的组织则选择完全基于 cloud 的基础架构,以获得更快的实施时间、优化的成本和易于扩展的资源。.

图 1:混合云和内部部署 Data 平台基础设施
大型 data platform 通常涉及建立七个主要层,这些层反映了从 “原始 data” 到 “信息 ”再到 “洞察 ”的 data 生命周期。各组织应仔细考虑每个层所需的适当服务和工具,以确保无缝的 data 流程和高效的 data 见解生成。如图 2:大 Data 平台 Data 层所示,这些服务和工具应在大 data platform 的每一层执行关键功能。.

图 2:大型 Data 平台 Data 层
大型 Data 平台的演变
大型 data platform 的开发应经历几个阶段,从最小可行平台(MVP)开始,然后逐步升级。一个组织应使其大 data platform 的发展与业务决策对更广泛、更快速的 data 见解和智能的更高要求同步。这些要求的增加会影响大 data platform 在 data 分析解决方案、data 源数量和类型以及内部和外部用户方面的复杂性。大 data platform 的演变包括增加更多的存储和计算资源、高级特性和功能,以及改进平台安全性和管理。.

图示 3:大型 Data 平台的演变
“我们看到,许多企业往往从一开始就在构建大型 data platforms 的过程中加入高级和不必要的功能,从而增加了技术拥有成本。大型 data platform 部署应从最低可行平台开始,并根据业务和技术要求不断发展。在构建平台的早期阶段,企业应实施强大的 data governance 和管理层,确保 data 质量、隐私、安全以及符合当地和地区 data 法律。”Anthony Cassab,Data Artefact 咨询总监
面向未来的大型 Data 平台指南
大型 data platform 应根据关键的架构准则来构建,以确保其面向未来,便于资源的扩展、不同内部部署和 cloud 基础设施之间的移植、服务的升级和替换,以及 data 收集和共享机制的扩展。.
“一个可随着业务需求的发展而扩展的适应性强的模块化平台,要比一个集成度高但定制化程度有限的 “黑盒子 ”平台更可取。这些平台架构可以全部或部分在 cloud 中构建,以充分利用 cloud 计算的优势,如可扩展性和成本效率,同时还能满足 data 保护法规的隐私和安全要求。”Faisal Najmuddin,Data Engineering 经理,Artefact
总之,大型 data platform 可为企业带来多种益处,如集中 data 数据源、启用先进的 data 分析解决方案,以及在整个企业范围内提供对 data 分析解决方案和数据源的访问。然而,实施大型 data platform 需要做出一系列战略决策,如选择正确的基础设施、采用面向未来的架构、选择标准和 “可迁移 ”服务、仔细考虑 data 保护法规,最后还要定义与业务需求密切相关的最佳演进计划,并最大限度地提高 data 投资回报。.

博客








