在探讨机器学习(ML)数据目录之前,让我们先定义什么是基础数据目录:它是一个中央存储库,用于存储数据源、数据格式、关系型数据库和数据血统等元数据,并标识各自的所有者。 数据目录被广泛视为数据驱动型企业的基石,它能提升全企业的数据素养,作为数据在分析中应如何解读和使用的唯一可信来源,并通过数据资产的所有权管理,推动数据作为产品得到推广。

尽管数据目录自 20 世纪 50 年代起便已存在,但首个基于机器学习的数据目录——“自动化数据目录”——直到 2012才由企业软件公司 Alation 推出。这些自动化目录实现了如今看来理所当然的功能,例如自动元数据捕获,但它们为其他供应商(如 Collibra 和 Atlan)推出的功能强大的机器学习数据目录铺平了道路。

机器学习数据目录应具备的六大功能

1.自动数据标记:“家庭地址”会被自动标记为“个人身份信息(PII)”,并被分类到一个安全的访问管理池以及一个供使用的“客户”数据域中。

2.基于人工智能的语义搜索:通过参考搜索历史记录,机器学习数据目录搜索功能能够预测最相关的数据资产,从而加快用户的搜索速度。

3.自动化数据血统映射:自动捕获数据从记录系统(SOR)到用于业务分析的仪表盘之间的转换过程。

4.数据质量提升:机器学习目录能识别格式不一致的情况(例如“2023年5月”而非“20230501”),并提供改进数据的建议。

5.自动化数据分析:通过分析整个技术生态系统中流动性数据的整合情况,金融机构的数据团队能够及时发现潜在的数据质量问题,并加以解决,从而准确反映其风险敞口。

6. 数据发现:当包含消费者行为指标的数据库集成到目录中时,机器学习功能会自动对数据进行分类,从而加快未来的检索速度。

借助这些新增功能,企业能够 大规模地对数据进行整理、可视化和情境化分析,从而提升洞察质量,并加快分析项目的交付速度,这些项目将直接为高层决策提供支持。

机器学习数据目录如何提升数据素养?

如前所述,数据素养是企业转型为数据驱动型组织的基础。如果数据使用者(数据分析师、数据科学家、决策者等)无法理解数据,那么这些数据就无异于多余的存储空间;考虑到数据存储的成本,这反而会带来净负面影响。

基于机器学习的数据目录不仅通过消除了解数据的障碍来提升数据素养,更重要的是,它能用业务语言对数据进行解释。 例如,自动生成的数据标签可根据多种要素将数据资产归类到特定业务领域,从而提供一种数据工程师和人力资源主管都能理解的共同语言。此外,当非数据岗位人员能够利用数据资产来提升工作成效时,下次面临类似挑战时,他们自然会转向数据(以及数据目录)寻求解决方案,从而有机地构建起一个具备数据素养且数据驱动的组织。

为什么具备数据素养并以数据为导向对成功至关重要

鉴于当今商业环境的快速变化,转型为数据驱动型组织势在必行。 在数据与分析(D&A)领域领军人物特蕾西·古舍(Traci Gusher)进行的一项研究中,93%的企业表示将持续“大力”增加对数据与分析能力的投资。然而,IBM数据科学与人工智能首席技术官黛博拉·莱夫Deborah Leff)指出,87%的数据科学项目始终停留在规划阶段,这对企业的数据发展目标造成了不利影响。

随着各行各业的企业投入巨资,最终胜出的将是那些能够帮助利益相关者掌握数据素养的企业。成功实现数据驱动转型,已使息税折旧及摊销前利润(EBITDA)最高增长了25%。

必须认识到,如果企业没有首先采取必要措施提升数据素养,就无法实现数据驱动。通过提供单一数据源,并借助机器学习能力消除诸如数据血统追踪、数据标签和所有者分配以及数据剖析等冗余的手动任务,从而赋能员工,这将有效提升透明度和信任度。

数据目录:决策的关键组成部分

机器学习极大地增强了数据目录的功能,使其成为当今商业环境中不可或缺的工具。通过一致的“智能”操作,能够消除对复杂数据集理解过程中的猜测成分,从而提高透明度;这进而增强了对数据资产的信心,促使数据得到更广泛的应用,产生更深刻的洞察,并最终实现数据驱动的决策。