作者

作者

作者

在今天的数字时代,企业面临的挑战是如何跟上数据生成的空前速度,以及收集各种类型数据的大量企业系统和数字技术。再加上需要快速有效地分析这些大量的数据,以产生洞察力和情报,从而使其商业价值最大化。因此,大数据平台已成为企业有效部署数据解决方案的重要基础,以提供及时的数据驱动的商业决策和竞争优势。

"数据分析和智能解决方案正在整个组织中激增,以实现业务增长。企业应该建立大数据平台,作为大规模部署数据解决方案的坚实基础。这些数据平台应该是专门为业务而建的,因为它们只有在实现业务洞察力和智能时才是最好的;而且它们应该是面向未来的,从数据基础设施服务和技术的不断进步中受益。
Oussama Ahmad, 数据咨询合伙人,Artefact

大数据平台的主要目标

大数据平台旨在打破数据孤岛,整合实施高级数据分析和智能解决方案所需的不同类型的数据源。它们为收集、存储和分析来自多个来源的大量数据提供了一个可扩展和灵活的基础设施。这些平台应该利用一流的数据管理服务和技术,实现三个关键目标:

  • 集中数据源:大数据平台应通过自动摄取和存储来自企业数据系统和第三方数据源的不同类型和规模的数据源来打破数据孤岛。它应该成为中央数据存储库,为数据分析解决方案所需的所有数据源提供单一真理源。

  • 启用数据分析解决方案:大数据平台应提供强大的基础设施,以便根据需要开发、运行和部署不同类型的分析解决方案(从简单的报告到先进的机器学习),以满足业务对情报和决策洞察的需求。

  • 确保对数据和应用的合规和安全访问:通过大数据平台,企业应该能够为内部和外部利益相关者提供综合、安全的数据访问。它还应以符合当地数据法律和法规以及国际标准和最佳做法的方式存储、处理和分发数据。

大数据平台的基础设施

大数据平台有几种基础设施选择:完全内部部署、完全云计算或混合云/内部部署,每种选择都有自己的优势和挑战。企业在为其大数据平台选择最合适的基础设施选项时应考虑多种因素,包括数据安全和驻留要求、数据源集成、功能和可扩展性要求以及成本和时间。完全基于云的架构提供了更低和更可预测的成本,即开即用的服务和集成,以及快速的可扩展性,但缺乏对硬件的控制,并且可能不符合数据隐私和居住规定。一个完全基于内部的架构提供了对硬件和数据安全的完全控制,通常符合隐私和居住条例,但会产生更高的成本,并需要长期的扩展规划。混合云/企业内部架构提供了两个世界的最佳选择,便于日后完全迁移到云中,但可能需要更复杂的设置。

由于组织要求将高度敏感的数据(如客户和财务数据)保存在自己的服务器上,或者由于缺乏符合当地数据隐私和居住要求的政府认证的云服务提供商(CSP),许多组织为其大数据平台选择混合基础设施。这些机构也倾向于将云原生或非敏感数据源保留在云中,以优化存储和计算资源成本,并利用CSP提供的开箱即用的数据分析和机器学习服务。其他对数据驻留在公司或国家内没有组织或监管要求的组织选择完全基于云的基础设施,以加快实施时间,优化成本,并易于扩展资源。

1

图1:混合云和企业内部数据平台基础设施

大数据平台通常涉及设置七个主要层次,反映了从 "原始数据 "到 "信息 "再到 "洞察力 "的数据生命周期。企业应仔细考虑每个层所需的适当服务和工具,以确保数据的无缝流动和数据见解的有效生成。这些服务和工具应在大数据平台的每个层中执行关键功能,如图2所示:大数据平台数据层。

1

图2:大数据平台的数据层

大数据平台的演变

大数据平台的发展应经历几个阶段,从最小可行平台(MVP)开始,继续逐步升级。企业应将其大数据平台的发展与对更广泛、更快速的数据洞察和商业决策情报的要求同步。这些需求的增加影响了大数据平台在数据分析解决方案、数据源数量和类型以及内部和外部用户方面的复杂性。大数据平台的演变包括增加更多的存储和计算资源,先进的特性和功能,以及平台安全和管理的改进。

1

图3:大数据平台的演变

"我们看到,许多组织倾向于从第一天起就用高级和不必要的功能来建立大数据平台,这增加了技术拥有成本。大数据平台的部署应该从最低限度的可行平台开始,并根据业务和技术要求不断发展。在构建平台的早期阶段,企业应该实施一个强大的数据治理和管理层,确保数据质量、隐私、安全,并符合当地和区域的数据法律。"
 Anthony Cassab,数据咨询总监,Artefact

面向未来的大数据平台的指导方针

大数据平台应根据关键的架构准则来构建,以确保其面向未来,允许资源的轻松扩展,在不同的内部和云端基础设施中的可移植性,服务的升级和替换,以及数据收集和共享机制的扩展。

  • 模块化的数据层:所有的平台层都应该被很好地定义和整合,从数据摄取层到数据可视化和BI层。每一层都应该利用一流的服务或工具,这通常要求架构不依赖于一个 "黑盒子 "解决方案,并允许配置和整合提供特定功能的独立工具和服务。

  • 容器化的应用程序:该平台应使用Kubernetes等协调平台将数据摄取、处理和分析程序和应用容器化。容器提供了一种逻辑包装机制,其中应用程序可以从运行环境中抽象出来,允许在各种类型的基础设施上运行容器化工作负载。这有利于平台应用程序在不同的内部和云基础设施上的可移植性,以及在多个云中的部署。

  • 基于微服务的架构:平台应用应该被分解成微服务,每个微服务都有特定的功能,并且相互之间有互动。这有利于应用程序的构建和维护,允许微服务的独立部署和扩展,并实现大型复杂应用程序的快速和频繁交付。

  • 标准服务和工具:为平台选择工具和服务时,应注重共享行业标准(开放标准),减少对任何单一技术供应商特有的工具和服务的依赖。例如,该平台应包括多个云服务提供商所共有的云服务。这有利于在不同的企业内部和云基础设施以及多云部署之间的迁移,减少成本和时间。

  • 强有力的数据治理:从一开始,平台就应该以治理工具、服务、流程、控制和规则的形式纳入一个强大的数据治理框架,确保持续监测和改善数据质量、安全访问数据和数据分析、隐私保护、合规存储和处理,以及标准化的数据和元数据管理。这有利于平台资源和能力的扩展,并促进数据分析解决方案的广泛采用和现有数据集的使用。

"一个能够随着业务需求的发展而扩展的适应性和模块化平台比一个集成度高但允许有限定制的 "黑盒子 "平台更可取。这些平台架构可以完全或部分建立在云中,以利用云计算的好处,如可扩展性和成本效率,同时也满足数据保护法规的隐私和安全要求"。
Faisal Najmuddin, 数据工程经理,Artefact

总之,大数据平台为企业带来了多种好处,如集中数据源、实现高级数据分析解决方案,并提供企业范围内对数据分析解决方案和来源的访问。然而,实施大数据平台需要做出一些战略决策,如选择合适的基础设施,采用面向未来的架构,选择标准和 "可迁移 "的服务,仔细考虑数据保护法规,最后,定义一个与业务需求密切相关的最佳演进计划,并使数据投资回报最大化。

Artefact Newsletter

Interested in Data Consulting | Data & Digital Marketing | Digital Commerce ?
Read our monthly newsletter to get actionable advice, insights, business cases, from all our data experts around the world!