作者
蒂娜·蔡斯
作者
阿基莱什·卡莱
作者
罗宾·基尔南
理解数据血统:探讨其定义及其在组织中的日益普及
在当今这个数据驱动的世界里,了解数据的流转路径——从源头到最终目的地——比以往任何时候都更为关键。这种能力被称为“数据血统”,它能全面展示数据在组织内部的流动情况,详细记录其沿途的转换过程和依赖关系。 数据血统的复杂程度各不相同,“粗粒度血统”展示表与表之间的转换,而“细粒度血统”则细化到属性层面。这些资产可通过Solidatus等工具进行映射,从而提供一种自动化方法,清晰呈现数据源、转换过程及使用情况。 在Artefact我们的团队日复一日地为客户设计和构建数据及 AI 产品,而数据血统能帮助客户解答诸如:“这个客户余额看起来不准确,究竟是哪个系统提供的?”或“为什么我的客户贷款倾向模型在周三会产生不同的结果?”等问题。 我们遵循一套结构严谨的六步法,以大规模部署数据血统,首先对独特的业务用例及其内在价值进行全面评估。这一流程最终实现无缝实施,并将持续维护与用户采用深度融入核心。

企业利用数据血统主要有几个关键原因,其中合规要求和数据质量管理最为重要。 在金融服务行业,健全的数据血统对于满足严格的审计要求和《巴塞尔委员会第239号文件》(BCBS 239)等原则至关重要,可确保在治理、数据架构、风险数据聚合、准确性、完整性以及风险报告频率等方面遵守相关法规。例如,在商业银行业务中,通过评估抵押贷款财务报告工作流,企业能够追溯敏感数据的来源和使用情况。

除了合规要求之外,数据血统还是提升数据质量的强大工具,它能帮助组织追踪数据问题、验证准确性,并维护其信息系统的可信度。本文将深入探讨数据血统(特别是粗粒度血统)的复杂性,并分析其为何已成为现代数据管理策略的基石。
人工智能在金融服务领域的迅猛崛起:机遇、挑战与未来发展路径
基于对数据理解的重要性,人工智能(AI)正在重塑现代金融服务格局,通过模拟人类智能来执行需要学习和决策的任务。人工智能的应用领域广泛且影响深远:对话式人工智能(如聊天机器人)提升了客户互动体验;生产力助手简化了工作流程并实现了任务自动化;而自动化数据分析则加速了从复杂数据集中获取洞察。 2024年8月,欧盟《人工智能法案》出台了旨在确保人工智能合乎伦理使用并保护用户权益的新规,凸显了全球向负责任地实施人工智能转变的趋势。这一发展强调了组织不仅需要利用人工智能的强大功能,还需通过审慎监管来管理它,从而补充其在数据血统和质量管理方面的努力。
虽然像 ChatGPT 这样的开源生成式人工智能可用于个人用途,但将其整合到组织中并为企业创造实际价值则是另一回事。大多数金融机构正争先恐后地推出生成式人工智能 和概念验证(POC),然而只有在确信潜在效益可靠且产品同时适合业务用户和技术用户时,才会投入真金白银。 许多机构仍因可靠性(74%)、用户接受度(60%)(1)以及技术专长不足(60%)等问题,在扩展这些技术方面面临困难。Artefact 的生成式人工智能 框架Artefact 解决核心可扩展性维度Artefact 设计的,这些维度包括:输出相关性、可解释性、公平性/偏见、延迟、基础设施、组织效率以及用户体验/采用率。
在人工智能领域,数据血统通过确保数据驱动决策的透明度和可靠性,为企业带来显著的商业价值。如今,超过75%的消费者对人工智能产生的虚假信息表示担忧(2)。人工智能常被称为“黑箱”,这意味着终端用户往往无法理解产生其日常使用结果的内部运作机制。 随着AI系统日益依赖海量且复杂的数据集,了解这些数据的来源与转换过程对于维持准确性和可信度至关重要。数据血统帮助组织追踪并验证输入AI模型的数据,这对优化模型性能以及解决偏见或错误等问题至关重要。通过提供清晰的审计轨迹,数据血统还能支持合规要求并加强数据治理,最终推动开发出更明智、更可靠且符合伦理的AI应用,从而带来更好的业务成果。
数据血统的实际应用:它如何为现实世界中的AI开发注入强劲动力
数据血统对于满足人工智能领域的监管和法律要求至关重要,尤其是在《加州消费者隐私法案》(CCPA)和《格雷姆-里奇-布利利法案》(GLBA)等政策框架下。例如,考虑一个涉及金融服务公司客户流失的用例。在此案例中,系统缺乏对个人信息进行匿名化的标准化流程,也没有数据血统来追踪数据流向。 因此,用于掩盖敏感细节的数据增强处理被作为最后一步进行,且治理措施极少。这种做法不仅损害了数据隐私,还使系统面临合规风险。如果我们的合作伙伴组织在Solidatus中拥有健全的数据血统,该组织本可以追踪数据的使用位置、记录数据转换过程、确保每个阶段都进行适当的匿名化处理,并更有效地满足监管要求,从而保护隐私并加强数据治理。
大多数组织(80%)声称其数据已准备好用于人工智能,但超过半数(52%)(3) 因数据质量问题而在实施过程中遇到了困难。数据血统对于确保人工智能开发中的数据质量至关重要,因为它清晰地展示了数据的来源、转换和利用过程。在Artefact我们深知数据准备就绪与质量的重要性。 我们倡导一种人工智能运营模式,即在制定技术要求的同时,同步开展数据准备和治理工作,从而部署大规模、可靠的人工智能系统。我们的团队曾开发过一个信用风险预测模型,该模型依赖多个数据表来评估借款人风险。在初步调查中,团队发现这些数据表之间存在不一致之处——例如数据格式不统一或信息过时。这会导致模型产生偏差,从而生成不准确的风险评估结果。 通过实施数据血统管理,该组织能够追溯数据的来源,识别不一致之处,并确保数据转换符合质量标准。这种透明度有助于在问题影响模型之前予以纠正,最终实现更可靠、更准确的预测,并维护人工智能系统的整体完整性。
数据血统通过详细展示数据在建模过程中的流转轨迹,有助于提升 AI 模型的调试、优化和可重现性。如果模型产生了意外结果,数据血统可帮助追溯数据在所有阶段的流转情况——从采集到预处理再到特征工程。这种可视性使数据科学家能够识别问题或不一致性可能产生的位置,从而促进精准调试和有针对性的优化。 此外,“领域适应”是一种常用的方法,通过复用算法组件来减少从头构建 AI 模型所需的时间和资源。血统对于在不同迭代和实验中实现可重复性至关重要,因为它为算法提供了数据的文档和使用记录。
助力人工智能成功:Artefact Solidatus 如何革新金融机构的数据管理
Artefact Artefact 与Solidatus 是 合作伙伴,双方共同坚信,有效的数据管理是人工智能成功的关键。Artefact Akhilesh Kale 表示:“数据血统是金融机构信任的基石,在受监管压力制约的这种高度复杂的环境中,它提供了至关重要的数据完整性。” 这种对数据完整性的重视,正是Artefact在数据和 AI 执行方面的专业知识与 Solidatus 的结构化环境相辅相成的核心所在,后者有助于管理和存储粗粒度血统信息。双方合作使金融机构能够提高 AI 模型源数据的透明度。正如曾任职于 Cardano 的 Phil Yeoman 所强调的:“借助 Solidatus,我们的数据资产现已完成映射、建模和编目。 通过单一视图,我可以向业务部门展示数据所在位置、其在系统和应用程序中的流转路径、适用的数据质量规则,以及哪些数据受《通用数据保护条例》(GDPR)约束。” 工具与服务的这种无缝集成,彰显了数据血统对人工智能的变革力量。它通过追踪数据从源头到目的地的全过程,简化了合规管理,确保了顶级数据质量,并提高了模型准确性。这种可追溯性对于满足《加州消费者隐私法案》(CCPA)和《格雷姆-里奇-比利法德法案》(GLBA)等监管标准具有不可估量的价值,同时也有助于识别可能危及人工智能模型的数据不一致性。此外,数据血统还能简化调试流程,提升模型性能,并确保结果的一致性和可靠性。
参考文献
(1) 普雷斯蒂安尼,蒂莫西。《2024年131项人工智能统计数据与趋势》。国立大学,2024年5月30日。https://www.nu.edu/blog/ai-statistics-trends/。
(2) 马修·福克斯,《人工智能如何塑造消费者情绪》,《福布斯》,2023年9月22日,https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/。
(3) 《校园技术》,“报告:数据质量阻碍了人工智能的采用”,2024年4月10日,https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)

博客





