作者

蒂娜-切斯

作者

阿基莱什-卡莱

作者

罗宾-基尔南

了解 Data 血统:探索 Data 的定义及其在企业中的广泛应用

在当今的 data-driven 世界中,了解 data 的旅程--从其起源到最终目的地--比以往任何时候都更为重要。这种能力被称为 data lineage,它提供了 data 在组织中流动的全面视图,详细描述了沿途的转换和依赖关系。Data lineage 的复杂程度各不相同,“粗线条 ”显示表与表之间的转换,而 “细线条 ”则显示属性级别。这些资产可以在 Solidatus 等工具中进行映射,从而提供一种自动化方法来创建 data 来源、转换和使用的清晰概览。在 Artefact,我们的团队日复一日地为客户设计和构建 data 和人工智能产品,而脉络可以帮助我们的客户回答以下问题:“为什么我的客户贷款倾向模型在周三会出现不同的结果?我们采用结构严谨的六步方法来大规模部署线性数据,首先对独特的业务用例及其内在价值进行全面评估。这一过程的最终结果是无缝实施,并将持续维护和用户采用整合为核心。.

Chart: Artefact Lineage Approach for better governance and decision-making

公司利用 data lineage 有几个主要原因,其中最重要的是监管合规和 data 质量管理。在金融服务业,稳健的 data lineage 对于满足严格的审计要求和原则(如 BCBS 239),确保遵守有关治理、data 架构、风险 data 聚合、准确性、完整性和风险报告频率的规定至关重要。例如,在商业银行案例中,评估抵押贷款财务报告工作流程可让公司追踪敏感 data 的来源和消耗。.

solidatus Data Map

除了合规性之外,data 行系还是提高 data 质量的有力工具,使企业能够跟踪 data 问题、验证准确性并保持对信息系统的信任。本文将深入探讨 data 线程的复杂性,特别是粗线程,并探讨为什么它已成为现代 data 管理战略的基石。.

人工智能在金融服务领域的迅速崛起:机遇、挑战和前进之路

基于理解 data 的重要性,人工智能(AI)正在改变现代金融服务的格局,模拟人类智能来执行需要学习和决策的任务。人工智能的应用多种多样,影响深远:对话式人工智能(如聊天机器人)增强了客户互动;生产力助理简化了工作流程,实现了任务自动化;自动 data 分析加快了从复杂 data 集中获得洞察力的速度。2024 年 8 月,欧盟的《人工智能法案》出台了旨在确保人工智能的道德使用和保护用户权利的新法规,凸显了全球向负责任地实施人工智能的转变。这一发展态势突出表明,企业不仅越来越需要利用人工智能的力量,还需要对其进行仔细的监督和管理,以补充其在 data 品系和质量管理方面所做的努力。.

虽然像 ChatGPT 这样的开源生成式人工智能可用于个人用途,但将人工智能集成到组织中并为企业创造真正的价值则是另一回事。大多数金融机构都在争分夺秒地进行 Gen AI 试点和 POC,但只有在证明他们相信潜在效益是可靠的,而且产品适合业务和技术用户时,才会投入真正的资金。由于担心可靠性(74%)、用户采用率(60%)(1) 和技术专业知识不足(60%),许多机构仍在努力扩展这些技术。Artefact 建立的 Gen AI 可扩展性框架旨在解决核心可扩展性问题:输出相关性、可解释性、公平性/偏见、延迟、基础设施、组织效率和用户体验/采用。.

在人工智能背景下,data 行系可确保 data-driven 决策的透明度和可靠性,从而带来巨大的商业价值。如今,超过 75% 的消费者担心人工智能会提供错误信息(2)。人工智能通常被称为 “黑盒子”,这意味着最终用户往往不了解他们经常使用的输出结果的内部运作。随着人工智能系统越来越依赖于庞大而复杂的 data 集,了解这些 data 的起源和转换对于保持准确性和可信度至关重要。Data lineage 可帮助企业跟踪和验证输入人工智能模型的 data,这对于优化模型性能和解决偏差或错误等问题至关重要。通过提供清晰的审计跟踪,data lineage 还能支持法规合规性并增强 data governance,最终实现更明智、可靠和道德的人工智能应用,推动更好的业务成果。.

Data Lineage 在行动:它如何推动现实世界的人工智能发展

Data 线程对于满足人工智能领域的监管和法律要求至关重要,尤其是根据《加利福尼亚消费者隐私法案》(CCPA)和《格拉姆-里奇-比利雷法案》(GLBA)等政策。例如,考虑一个涉及金融服务公司内部客户流动的用例。在这种情况下,系统缺乏对私人信息进行匿名化处理的标准化实践,也没有 data 线程来跟踪 data 流量。因此,data 浓缩以掩盖敏感细节是作为最后一步来执行的,管理程度极低。这种方法不仅损害了 data 的隐私,还使系统面临合规风险。如果我们的合作机构在 Solidatus 中拥有强大的 data 线程,该机构就可以跟踪 data 的使用位置、捕获 data 转换、确保每个阶段的适当匿名化,并更有效地满足监管要求,从而保护隐私并增强 data governance。.

大多数组织(80%)声称他们的 data 已准备好用于人工智能,但超过一半的组织(52%)(3) 在实施过程中遇到了基于其 data 质量的问题。Data 族系对于确保人工智能开发中的 data 质量至关重要,因为它提供了 data 如何来源、转化和使用的清晰视图。在 Artefact,我们深知 data 准备和质量的重要性。我们坚信,人工智能运营模式在开发技术需求的同时,也要做好部署大规模可靠人工智能所需的data准备和管理。我们的团队开发了一个信用风险预测模型,该模型依赖多个 data 表来评估借款人的风险。团队在初步调查中发现了这些表格之间的不一致性--例如 data 格式的差异或过时信息。这将导致模型出现偏差,并生成不准确的风险评估。通过实施 data lineage,组织可以追溯 data 的起源,确定出现不一致的地方,并确保 data 转换符合质量标准。这种透明度有助于在问题影响模型之前对其进行纠正,最终实现更可靠、更准确的预测,并维护人工智能系统的整体完整性。.

Data lineage 可以详细查看 data 的建模过程,从而增强人工智能模型的调试、改进和可重复性。如果一个模型产生了意想不到的结果,data lineage 可以帮助追踪 data 从收集到预处理和特征工程的所有阶段。这种可视性使 data 科学家能够识别可能出现问题或不一致的地方,便于进行精确调试和有针对性的改进。此外,“领域适应 ”是一种重复使用算法组件的常用方法,以减少从头开始构建人工智能模型所需的时间和资源。Lineage 对于在不同迭代和实验中实现这种可重复性至关重要,因为它为算法提供了 data 的文档和用法。.

助力人工智能成功:Artefact 和 Solidatus 如何为金融机构的 Data 管理带来变革

Artefact固体 是合作伙伴,他们一致认为有效的 data 管理对人工智能的成功至关重要。Artefact 在金融服务领域的领导者 Akhilesh Kale 声称:“data 的血统是金融机构信任的支柱,在这样一个由监管压力决定的高度复杂的环境中,data 的完整性至关重要。这种对 data 完整性的强调是 Artefact 在 data 和人工智能执行方面的专业知识如何与 Solidatus 的结构化环境相辅相成的核心所在,后者有助于管理和存储粗线条数据。两者的结合使金融机构能够提高人工智能模型源 data 的透明度。正如前 Cardano 公司的 Phil Yeoman 所强调的,”有了 Solidatus,我们的 data 资产现在已被映射、建模和编目。在单一视图中,我可以向企业展示他们的 data 位于何处、如何在系统和应用程序中流动、适用哪些 data 质量规则以及哪些 data 受 GDPR 限制。’这种工具和服务的无缝整合彰显了 data lineage 对人工智能的变革力量。它简化了合规导航,确保了一流的 data 质量,并通过追踪 data 从原产地到目的地的过程提高了模型的准确性。这种可追溯性对于满足 CCPA 和 GLBA 等监管标准非常宝贵,同时还有助于识别可能损害人工智能模型的 data 不一致性。此外、, data 血统 简化调试,提高模型性能,并确保结果的一致性和可靠性。.

参考资料

(1) Prestianni, Timothy.“(2024 年)131 项人工智能统计数据和趋势”。国立大学,2024 年 5 月 30 日。. https://www.nu.edu/blog/ai-statistics-trends/.

(2) 马修-福克斯:《人工智能如何塑造消费者情绪》,《福布斯》,2023 年 9 月 22 日、, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.

(3) Campus Technology,“Report:人工智能应用受阻于 Data 质量”,2024 年 4 月 10 日、, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)