作者

作者

作者

在当今的数字时代,企业面临着巨大的挑战:既要跟上数据生成速度前所未有的增长步伐,又要应对大量收集各类数据的企业系统和数字技术。与此同时,企业还需要快速高效地分析这些海量数据,从中提炼洞察与情报,以最大限度地发挥其商业价值。因此,大数据平台已成为企业高效部署数据解决方案的重要基石,这些解决方案能够支持及时的数据驱动型商业决策,并为企业带来竞争优势。

“数据分析和智能解决方案正在各组织中广泛普及,以推动业务增长。各组织应构建大数据平台作为坚实基础,从而大规模部署数据解决方案。这些数据平台应专为业务需求量身定制,因为其价值取决于它们所能提供的业务洞察和智能;同时,它们应具备前瞻性,能够充分利用数据基础设施服务和技术的持续进步。”
乌萨马·艾哈迈德,Artefact数据咨询合伙人

大数据平台的主要目标

大数据平台旨在打破数据孤岛,整合实施高级数据分析和智能解决方案所需的各类数据源。它们为收集、存储和分析来自多个来源的海量数据提供了可扩展且灵活的基础设施。这些平台应采用业界领先的数据管理服务和技术,并实现以下三个关键目标:

  • 集中数据源:大数据平台应通过自动采集和存储来自企业数据系统及第三方数据源的各类数据(无论类型和规模),打破数据孤岛。它应成为中央数据存储库,为数据分析解决方案所需的所有数据源提供单一可信数据源。

  • 支持数据分析解决方案:大数据平台应提供强大的基础设施,用于根据业务需求开发、运行和部署各类分析解决方案(从简单的报表生成到高级机器学习),从而为决策提供智能支持和洞察。

  • 确保对数据和应用程序的访问符合规定且安全:借助大数据平台,企业应能够为内部和外部利益相关者提供统一且安全的数据访问服务。该平台还应以符合当地数据法律法规以及国际标准和最佳实践的方式存储、处理和分发数据。

大数据平台的基础架构

大数据平台有多种基础设施选项:完全本地部署、完全cloud cloud,每种方案都有其独特的优势和挑战。企业在为大数据平台选择最合适的基础设施方案时,应综合考虑多项因素,包括数据安全与驻留要求、数据源集成、功能与可扩展性要求,以及成本和时间。 完全cloud架构具有成本更低且更可预测、开箱即用的服务与集成以及快速扩展性等优势,但缺乏对硬件的控制权,且可能无法符合数据隐私和驻留法规。完全本地部署的架构则能提供对硬件和数据安全的完全控制,通常符合隐私和驻留法规,但成本较高,且需要针对扩展进行长期规划。cloud兼具两者的优势,便于cloud 完全迁移cloud 但可能需要更复杂的部署配置。

许多组织选择采用混合基础设施来构建其大数据平台,原因在于组织内部要求将高度敏感的数据(如客户和财务数据)保留在自有服务器上,或者是因为缺乏符合当地数据隐私和数据驻留要求的政府cloud 提供商(CSP)。 这些组织也倾向于cloud或非敏感数据源保留在cloud 优化存储和计算资源成本,并利用云服务提供商提供的开箱即用的数据分析和机器学习服务。而对于那些在公司内部或国家层面没有数据驻留组织或监管要求的其他组织,则会选择完全cloud的基础设施,以实现更快的实施速度、更优化的成本以及易于扩展的资源。

class="lazyload

图 1:混合Cloud 本地数据平台基础设施

大数据平台通常包含七个主要层级,这些层级反映了数据从“原始数据”到“信息”再到“洞察”的生命周期。组织应仔细考虑每个层级所需的适当服务和工具,以确保数据流的无缝衔接以及高效生成数据洞察。这些服务和工具应在大数据平台的每个层级中发挥关键作用,如图 2:大数据平台数据层所示。

class="lazyload

图 2:大数据平台的数据层

大数据平台的演变

大数据平台的开发应经历几个阶段,从最小可行平台(MVP)开始,随后进行渐进式升级。 企业应使其大数据平台的演进与日益增长的需求保持同步,以满足业务决策对更广泛、更快速的数据洞察和智能分析的需求。这些日益增长的需求会影响大数据平台的复杂性,具体体现在数据分析解决方案、数据源的规模与类型,以及内部和外部用户等方面。大数据平台的演进包括增加更多的存储和计算资源、引入高级特性与功能,以及提升平台的安全性和管理能力。

class="lazyload

附件 3:大数据平台的演变

“我们发现,许多组织往往从一开始就构建包含先进且非必要功能的大数据平台,这增加了技术拥有成本。大数据平台的部署应从最小可行平台起步,并根据业务和技术需求逐步演进。在平台建设的早期阶段,组织应建立一个健全的数据治理和管理层,以确保数据质量、隐私、安全,并符合当地及区域的数据法规。”
 安东尼·卡萨布,Artefact数据咨询总监

面向未来的大数据平台建设指南

大数据平台的构建应遵循关键的架构准则,以确保其具备前瞻性,从而能够轻松实现资源扩展、在不同的本地和cloud 迁移、服务升级与替换,以及数据采集和共享机制的扩展。

  • 模块化数据层:从数据采集层到数据可视化和商业智能层,所有平台层都应明确定义并实现集成。每个层都应采用业界领先的服务或工具,这通常要求架构不依赖“黑盒”解决方案,并允许配置和集成提供特定功能的独立工具和服务。

  • 容器化应用程序:该平台应利用 Kubernetes 等编排平台,将数据采集、处理和分析流程及应用程序进行容器化。容器提供了一种逻辑封装机制,能够将应用程序与运行时环境进行抽象化处理,从而支持在各类基础设施上运行容器化工作负载。这有助于平台应用程序在不同的本地和cloud 之间实现可移植性,并支持跨多云环境进行部署。

  • 基于微服务的架构:平台应用程序应拆分为微服务,每个微服务负责特定功能并相互协作。这有助于应用程序的构建和维护,支持微服务的独立部署和扩展,并能实现大型复杂应用程序的快速、频繁交付。

  • 标准服务与工具:平台所选用的工具和服务应侧重于行业通用标准(开放标准),并减少对特定技术供应商的依赖。例如,平台应包含cloud 提供商通用的cloud 。这有助于在不同的本地和cloud 进行迁移,并cloud 从而降低成本并节省时间。

  • 健全的数据治理:从一开始,平台就应构建一个健全的数据治理框架,包括治理工具、服务、流程、控制措施和规则,以确保持续监控和提升数据质量、保障数据及数据分析的安全访问、保护隐私、符合合规要求的存储和处理,以及标准化数据和元数据管理。这有助于平台资源和能力的扩展,并促进数据分析解决方案的广泛采用以及现有数据集的有效利用。

“相比集成度高但定制化受限的‘黑盒’平台,能够随着业务需求变化而灵活扩展的适应性强且模块化的平台更为理想。此类平台架构可完全或部分部署cloud cloud 的可扩展性和成本效益等优势,又能满足数据保护法规对隐私和安全的要求。”
FaisalArtefact数据工程经理

总而言之,大数据平台能为组织带来多重益处,例如集中管理数据源、支持高级数据分析解决方案,以及提供全企业范围的数据分析解决方案和数据源访问权限。 然而,实施大数据平台需要做出多项战略决策,例如选择合适的基础设施、采用面向未来的架构、选定标准且“可迁移”的服务、仔细考量数据保护法规,以及最终制定与业务需求紧密关联、并能最大化数据投资回报的最佳演进计划。