在探索机器学习(ML)数据目录之前,让我们先定义一下什么是基本的数据目录:一个中央存储库,存储元数据,如数据源、数据格式、关系数据库和数据脉络,并识别它们各自的所有者。数据目录被广泛认为是数据驱动型组织的基础,它促进了整个企业的数据素养,成为分析中如何解释和使用数据的单一真理来源,并通过对数据资产的所有权促进数据作为一种产品。
尽管数据目录自20世纪50年代以来一直存在,但第一个由ML驱动的数据目录,"自动数据目录",直到2012年才由企业软件公司Alation推出。这些自动目录实现了今天看来很明显的功能,如自动元数据捕获,但它们为其他供应商的超强ML数据目录铺平了道路,如Collibra和Atlan。
在ML数据目录中需要寻找的六个特征
1.自动的数据标记:"家庭住址 "被自动标记为 "PII",并被分类到一个安全访问管理池和一个 用于消费的"客户 "数据域。
2.AI驱动的语义搜索:通过参考搜索历史,ML数据目录搜索预测出最相关的数据资产,并加快用户的搜索。
3.自动的数据脉络映射:自动捕捉从记录系统(SOR)到用于业务消费的仪表盘的表的转换。
4.数据质量的提高:ML目录识别不一致的格式(即 "2023年5月"'而不是 "20230501"),并提供建议以改进数据。
5.自动数据剖析:通过分析整个科技生态系统的流动性数据的整合,金融机构的数据团队被提醒潜在的数据质量问题,可以解决这些问题,以准确地展示他们的风险暴露。
6.数据发现:当有消费者行为指标的数据库被整合到目录中时,ML功能会自动对数据进行分类,并加快未来的检索。
有了这些新增的功能,企业可以 大规模地组织、可视化和关联他们的数据,提高洞察力的质量,并加快直接支持高层决策的分析项目的交付时间。
ML数据目录如何加速数据知识的普及?
如前所述,数据素养是成为一个数据驱动型组织的基础步骤。如果数据消费者(数据分析师和科学家,决策者等)不了解数据,那么它不会比多余的存储好,考虑到存储数据的成本,这是一个净负值。
由ML驱动的数据目录不仅通过消除学习数据的障碍来支持数据素养,更重要的是通过用业务语言来解释数据。例如,自动数据标签可以根据各种元素将数据资产组织到特定的业务领域,提供一个数据工程师和人力资源主管都可以使用的共同标准。此外,当非数据角色能够利用数据资产来改善他们的产出时,他们在下次面临类似挑战时就会求助于数据(和数据目录),从而有机地创建一个懂数据和数据驱动的组织。
为什么具备数据素养并成为驱动者对成功至关重要?
鉴于当今商业环境的快速发展,成为一个数据驱动的组织势在必行。在数据和分析(D&A)领导者Traci Gusher进行的一项研究中,93%的公司表示,他们将继续 "积极地 "增加对D&A能力的投资。然而,根据IBM数据科学和人工智能首席技术官Deborah Leff的说法,87%的数据科学项目从未超过规划阶段,对数据的雄心产生了不利影响。
随着各行各业的公司都在进行巨大的投资,那些能够帮助他们的利益相关者成为有数据意识的人将成为赢家。成功实现数据驱动的使命表明,EBITDA的增幅高达25%。
重要的是要明白,在成为数据驱动型企业之前,首先应当完成必要的践行步骤,使自己具备数据素养。赋予人们一个单一的数据真相来源,通过ML功能驱动,消除冗余的人工任务,比如谱系图,分配数据标签和所有者,并对数据进行分析,以提高透明度和信任度。
数据目录:决策的一个重要组成部分
机器学习给数据目录带来了超强的动力,并将其转化为当今商业环境下的一个重要工具。通过一致的“智能”操作消除对复杂数据集的猜测,从而提高透明度,从而建立对数据资产的信心,从而更好地使用数据,产生更深入的见解,并产生数据驱动决策的最终产品。

Interested in Data Consulting | Data & Digital Marketing | Digital Commerce ?
Read our monthly newsletter to get actionable advice, insights, business cases, from all our data experts around the world!