Unveiling the Path: Why Data Lineage is Crucial for Building Effective AI Products

作者

蒂娜-切斯

Solidatus 产品管理副总裁

作者

阿基莱什-卡莱

合作伙伴 - Data 和人工智能基金会，美国 ARTEFACT 美国 FS 领导人

作者

罗宾-基尔南

美国 ARTEFACT 高级 Data Consultant

了解 Data 血统：探索 Data 的定义及其在企业中的广泛应用

在当今的 data-driven 世界中，了解 data 的旅程--从其起源到最终目的地--比以往任何时候都更为重要。这种能力被称为 data lineage，它提供了 data 在组织中流动的全面视图，详细描述了沿途的转换和依赖关系。Data lineage 的复杂程度各不相同，“粗线条 ”显示表与表之间的转换，而 “细线条 ”则显示属性级别。这些资产可以在 Solidatus 等工具中进行映射，从而提供一种自动化方法来创建 data 来源、转换和使用的清晰概览。在 Artefact，我们的团队日复一日地为客户设计和构建 data 和人工智能产品，而脉络可以帮助我们的客户回答以下问题：“为什么我的客户贷款倾向模型在周三会出现不同的结果？我们采用结构严谨的六步方法来大规模部署线性数据，首先对独特的业务用例及其内在价值进行全面评估。这一过程的最终结果是无缝实施，并将持续维护和用户采用整合为核心。.

Chart: Artefact Lineage Approach for better governance and decision-making

公司利用 data lineage 有几个主要原因，其中最重要的是监管合规和 data 质量管理。在金融服务业，稳健的 data lineage 对于满足严格的审计要求和原则（如 BCBS 239），确保遵守有关治理、data 架构、风险 data 聚合、准确性、完整性和风险报告频率的规定至关重要。例如，在商业银行案例中，评估抵押贷款财务报告工作流程可让公司追踪敏感 data 的来源和消耗。.

除了合规性之外，data 行系还是提高 data 质量的有力工具，使企业能够跟踪 data 问题、验证准确性并保持对信息系统的信任。本文将深入探讨 data 线程的复杂性，特别是粗线程，并探讨为什么它已成为现代 data 管理战略的基石。.

人工智能在金融服务领域的迅速崛起：机遇、挑战和前进之路

基于理解 data 的重要性，人工智能（AI）正在改变现代金融服务的格局，模拟人类智能来执行需要学习和决策的任务。人工智能的应用多种多样，影响深远：对话式人工智能（如聊天机器人）增强了客户互动；生产力助理简化了工作流程，实现了任务自动化；自动 data 分析加快了从复杂 data 集中获得洞察力的速度。2024 年 8 月，欧盟的《人工智能法案》出台了旨在确保人工智能的道德使用和保护用户权利的新法规，凸显了全球向负责任地实施人工智能的转变。这一发展态势突出表明，企业不仅越来越需要利用人工智能的力量，还需要对其进行仔细的监督和管理，以补充其在 data 品系和质量管理方面所做的努力。.

虽然像 ChatGPT 这样的开源生成式人工智能可用于个人用途，但将人工智能集成到组织中并为企业创造真正的价值则是另一回事。大多数金融机构都在争分夺秒地进行 Gen AI 试点和 POC，但只有在证明他们相信潜在效益是可靠的，而且产品适合业务和技术用户时，才会投入真正的资金。由于担心可靠性（74%）、用户采用率（60%）(1) 和技术专业知识不足（60%），许多机构仍在努力扩展这些技术。Artefact 建立的 Gen AI 可扩展性框架旨在解决核心可扩展性问题：输出相关性、可解释性、公平性/偏见、延迟、基础设施、组织效率和用户体验/采用。.

在人工智能背景下，data 行系可确保 data-driven 决策的透明度和可靠性，从而带来巨大的商业价值。如今，超过 75% 的消费者担心人工智能会提供错误信息（2）。人工智能通常被称为 “黑盒子”，这意味着最终用户往往不了解他们经常使用的输出结果的内部运作。随着人工智能系统越来越依赖于庞大而复杂的 data 集，了解这些 data 的起源和转换对于保持准确性和可信度至关重要。Data lineage 可帮助企业跟踪和验证输入人工智能模型的 data，这对于优化模型性能和解决偏差或错误等问题至关重要。通过提供清晰的审计跟踪，data lineage 还能支持法规合规性并增强 data governance，最终实现更明智、可靠和道德的人工智能应用，推动更好的业务成果。.

Data Lineage 在行动：它如何推动现实世界的人工智能发展

Data 线程对于满足人工智能领域的监管和法律要求至关重要，尤其是根据《加利福尼亚消费者隐私法案》（CCPA）和《格拉姆-里奇-比利雷法案》（GLBA）等政策。例如，考虑一个涉及金融服务公司内部客户流动的用例。在这种情况下，系统缺乏对私人信息进行匿名化处理的标准化实践，也没有 data 线程来跟踪 data 流量。因此，data 浓缩以掩盖敏感细节是作为最后一步来执行的，管理程度极低。这种方法不仅损害了 data 的隐私，还使系统面临合规风险。如果我们的合作机构在 Solidatus 中拥有强大的 data 线程，该机构就可以跟踪 data 的使用位置、捕获 data 转换、确保每个阶段的适当匿名化，并更有效地满足监管要求，从而保护隐私并增强 data governance。.

大多数组织（80%）声称他们的 data 已准备好用于人工智能，但超过一半的组织（52%）(3) 在实施过程中遇到了基于其 data 质量的问题。Data 族系对于确保人工智能开发中的 data 质量至关重要，因为它提供了 data 如何来源、转化和使用的清晰视图。在 Artefact，我们深知 data 准备和质量的重要性。我们坚信，人工智能运营模式在开发技术需求的同时，也要做好部署大规模可靠人工智能所需的data准备和管理。我们的团队开发了一个信用风险预测模型，该模型依赖多个 data 表来评估借款人的风险。团队在初步调查中发现了这些表格之间的不一致性--例如 data 格式的差异或过时信息。这将导致模型出现偏差，并生成不准确的风险评估。通过实施 data lineage，组织可以追溯 data 的起源，确定出现不一致的地方，并确保 data 转换符合质量标准。这种透明度有助于在问题影响模型之前对其进行纠正，最终实现更可靠、更准确的预测，并维护人工智能系统的整体完整性。.

Data lineage 可以详细查看 data 的建模过程，从而增强人工智能模型的调试、改进和可重复性。如果一个模型产生了意想不到的结果，data lineage 可以帮助追踪 data 从收集到预处理和特征工程的所有阶段。这种可视性使 data 科学家能够识别可能出现问题或不一致的地方，便于进行精确调试和有针对性的改进。此外，“领域适应 ”是一种重复使用算法组件的常用方法，以减少从头开始构建人工智能模型所需的时间和资源。Lineage 对于在不同迭代和实验中实现这种可重复性至关重要，因为它为算法提供了 data 的文档和用法。.

助力人工智能成功：Artefact 和 Solidatus 如何为金融机构的 Data 管理带来变革

Artefact 和固体是合作伙伴，他们一致认为有效的 data 管理对人工智能的成功至关重要。Artefact 在金融服务领域的领导者 Akhilesh Kale 声称：“data 的血统是金融机构信任的支柱，在这样一个由监管压力决定的高度复杂的环境中，data 的完整性至关重要。这种对 data 完整性的强调是 Artefact 在 data 和人工智能执行方面的专业知识如何与 Solidatus 的结构化环境相辅相成的核心所在，后者有助于管理和存储粗线条数据。两者的结合使金融机构能够提高人工智能模型源 data 的透明度。正如前 Cardano 公司的 Phil Yeoman 所强调的，”有了 Solidatus，我们的 data 资产现在已被映射、建模和编目。在单一视图中，我可以向企业展示他们的 data 位于何处、如何在系统和应用程序中流动、适用哪些 data 质量规则以及哪些 data 受 GDPR 限制。’这种工具和服务的无缝整合彰显了 data lineage 对人工智能的变革力量。它简化了合规导航，确保了一流的 data 质量，并通过追踪 data 从原产地到目的地的过程提高了模型的准确性。这种可追溯性对于满足 CCPA 和 GLBA 等监管标准非常宝贵，同时还有助于识别可能损害人工智能模型的 data 不一致性。此外、, data 血统简化调试，提高模型性能，并确保结果的一致性和可靠性。.

参考资料

(1) Prestianni, Timothy.“（2024 年）131 项人工智能统计数据和趋势”。国立大学，2024 年 5 月 30 日。. https://www.nu.edu/blog/ai-statistics-trends/.

(2) 马修-福克斯：《人工智能如何塑造消费者情绪》，《福布斯》，2023 年 9 月 22 日、, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.

(3) Campus Technology，“Report：人工智能应用受阻于 Data 质量”，2024 年 4 月 10 日、, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)

联系我们

揭开路径的面纱：为什么 Data 产品线对打造有效的人工智能产品至关重要？

作者