在探索机器学习(ML)data 目录之前,让我们先来定义一下什么是基本的 data 目录:一个存储元 data 的中央存储库,例如 data 源、data 格式、关系 data 库和 data 世系,并确定其各自的所有者。data 目录被普遍认为是 data-driven 组织的基础,它可以促进企业范围内的 data 扫盲,成为在分析中如何解释和使用 data 的唯一真实来源,并通过 data 资产的所有权将 data 作为一种产品加以推广。.
虽然 data 目录从 20 世纪 50 年代就开始出现了, 但是,直到 2012 年,企业软件公司 Alation 才推出首个由 ML 驱动的 data 目录,即 “自动 Data 目录”。这些自动化目录实现了今天看来显而易见的功能,如自动元 data 捕获,但它们为 Collibra 和 Atlan 等其他供应商的增压 ML data 目录铺平了道路。.
ML Data 目录应具备的六大特点
1. data 自动标记:“家庭地址 ”会被自动标记为 “PII”,并被分类到安全访问管理池和 “客户 ”data 域中供使用。.
2. 人工智能驱动的语义搜索:通过参考搜索历史,ML data 目录搜索可预测最相关的 data 资产,加快用户的搜索速度。.
3. 自动绘制 data 系谱图:自动捕捉从记录系统 (SOR) 到用于业务消费的仪表板的表格转换。.
4. Data 质量改进:ML 目录确定了不一致的格式(即 “2023 年 5 月 ”而不是 ’20230501“),并提出了改进 data 的建议。.
5. 自动 data 分析:通过分析流动性 data 在整个技术生态系统中的整合情况,金融机构的 data 团队可警惕潜在的 data 质量问题,从而解决这些问题,准确展示其风险敞口。.
6. Data 发现:当包含消费者行为指标的 database 集成到目录中时,ML 功能会自动对 data 进行分类,并加快未来的检索。.
有了这些新增功能、, 各组织可以 大规模地组织、可视化和背景化他们的 data, 我们的目标是,提高洞察力的质量,加快分析项目的交付时间,为高层决策提供直接支持。.
ML Data 目录如何加速 data 扫盲?
如前所述,Data 扫盲是成为 data-driven 组织的基础步骤。如果 data 消费者(data 分析师和科学家、决策者等)不了解 data,那就只能是多余的存储,如果考虑到存储 data 的成本,那就是净负值。.
由 ML 支持的 data 目录不仅能消除学习 data 的障碍,更重要的是,它还能用业务语言对 data 进行解释,从而为 data 扫盲提供支持。例如,自动 data 标签可以根据各种要素将 data 资产组织到特定业务领域中,从而提供 data 工程师和人力资源主管都能使用的共同标准。此外、, 当非 data 角色能够利用 data 资产来提高产出时,他们将在下一次面临类似挑战时求助于 data(以及 data 目录, 从而有机地创建一个了解 data 和 data-driven 的组织。.
了解 data 并为之奋斗是成功的关键所在
鉴于当今商业环境的快速发展,成为 data-driven 组织势在必行。在 研究 在 data 和分析(D&A)领导者 Traci Gusher 所做的研究中,93% 的公司表示将继续 “积极 ”增加对 D&A 能力的投资。但是, 根据德博拉-勒夫的说法, IBM公司Data科学与人工智能首席技术官表示,87%的data科学项目从未通过规划阶段,这对data的雄心壮志产生了不利影响。.
各行各业的公司都在进行巨额投资、, 获胜者将是那些能够帮助其利益相关者了解 data 的人. .成功完成成为 data-driven 的任务表明 息税折旧摊销前利润增加高达 25%.
重要的是要明白,除非公司首先采取必要的措施成为 data 通晓者,否则就不可能成为 data-driven。借助 ML 功能,为人们的 data 提供单一的真相来源,从而消除冗余的人工任务,如世系映射、分配 data 标签和所有者以及剖析 data,从而提高透明度和信任度。.
Data 目录:决策的重要组成部分
机器学习为 data 目录注入了新的活力,使其成为当今商业环境中不可或缺的工具。通过一致的 “智能 ”操作,能够消除在理解复杂的 data 集时的猜测,从而提高透明度,进而建立对 data 资产的信心,从而更多地使用 data,产生更多的洞察力,并产生 data-driven 决策的最终产品。.

博客






