Autor
Tina Chace
Autor
Akhilesh Kale
Autor
Robyn Kiernan
Entendiendo Data Lineage: Exploración de su definición y creciente adopción en las organizaciones
En el mundo actual, impulsado por data, comprender el recorrido de data-desde su origen hasta su destino final- es más crucial que nunca. Esta capacidad, denominada data lineage, proporciona una visión completa de cómo data fluye a través de una organización, detallando sus transformaciones y dependencias a lo largo del camino. Data lineage varía en términos de niveles de complejidad, con "coarse lineage" demostrando las transformaciones de tabla a tabla, y "fine lineage" estando en el nivel de atributo. Estos activos pueden mapearse en herramientas como Solidatus, que proporciona un método automatizado para crear una visión clara de las fuentes, la transformación y el uso de data . En Artefact, nuestros equipos diseñan y construyen productos data y AI para nuestros clientes día tras día data , y el linaje ayuda a nuestros clientes a responder a preguntas como: "¿Qué sistemas nos están dando este saldo de clientes, ya que parece inexacto?" o "¿Por qué mi modelo de propensión de préstamos a clientes tiene resultados diferentes específicamente los miércoles?". Seguimos una metodología de seis pasos meticulosamente estructurada para desplegar el linaje a escala, comenzando con una evaluación exhaustiva del caso de uso empresarial único y su valor intrínseco. Este proceso culmina en una implantación sin fisuras, en la que el mantenimiento continuo y la adopción por parte del usuario se integran en el núcleo.
Las empresas aprovechan el linaje data por varias razones clave, entre las que destacan el cumplimiento de la normativa y la gestión de la calidad data . En el sector de los servicios financieros, un linaje data sólido es esencial para cumplir los estrictos requisitos de auditoría y principios como el BCBS 239, garantizando el cumplimiento de la normativa en materia de gobernanza, arquitectura data , agregación de riesgos data , precisión, integridad y frecuencia de los informes de riesgos. Por ejemplo, en un caso de banca comercial en el que la evaluación de un flujo de trabajo de información financiera sobre hipotecas permite a Compañia rastrear los orígenes y el consumo de data sensibles.
Más allá del cumplimiento, el linaje de data es una poderosa herramienta para mejorar la calidad de data , permitiendo a las organizaciones realizar un seguimiento de los problemas de data , validar la precisión y mantener la confianza en sus sistemas de información. Este artículo profundiza en los entresijos del linaje data , concretamente en el linaje grueso, y explora por qué se ha convertido en una piedra angular de las modernas estrategias de gestión data .
AIEl rápido ascenso de los servicios financieros: Oportunidades, retos y camino a seguir
Partiendo de la importancia de comprender data, Inteligencia Artificial (AI) está transformando el panorama de los servicios financieros modernos, simulando la inteligencia humana para realizar tareas que requieren aprendizaje y toma de decisiones. AILas aplicaciones de data son diversas e impactantes: la conversación AI, como los chatbots, mejora las interacciones con los clientes; los asistentes de productividad agilizan los flujos de trabajo y automatizan las tareas; y el análisis automatizado acelera la comprensión de conjuntos de datos complejos. En agosto de 2024, la Ley AI de la Unión Europea introdujo nuevas normas destinadas a garantizar un uso ético de AI y proteger los derechos de los usuarios, lo que pone de relieve el cambio mundial hacia una aplicación responsable de AI . Esta evolución subraya la creciente necesidad de que las organizaciones no sólo aprovechen el poder de AI, sino que también lo gestionen con una cuidadosa supervisión, complementando sus esfuerzos en data linaje y gestión de la calidad.
Mientras que el uso de código abierto Generativo AI como ChatGPT para uso personal, la integración de AI en una organización y la generación de valor real para el negocio es un juego de pelota diferente. La mayoría de las instituciones financieras se encuentran en la rápida carrera de producir pilotos y POC Gen AI sin embargo, los dólares reales sólo se comprometen cuando se demuestra que creen que los beneficios potenciales son fiables y que el producto es adecuado tanto para los usuarios empresariales como para los técnicos. Muchas instituciones siguen luchando por ampliar estas tecnologías debido a preocupaciones sobre la fiabilidad (74%), la adopción por parte de los usuarios (60%)(1) y la insuficiente experiencia técnica (60%). Un marco de escalabilidad Gen AI es lo que ha construido Artefact para abordar las dimensiones centrales de la escalabilidad: Relevancia de los resultados, Explicabilidad, Equidad/prejuicio, Latencia, Infraestructura, Eficiencia organizativa y Experiencia/adopción del usuario.
En el contexto de AI, el linaje de data Servicios aporta un importante valor empresarial al garantizar la transparencia y la fiabilidad de las decisiones basadas en data. En la actualidad, más del 75% de los consumidores están preocupados por la información errónea procedente de AI(2). AI suele denominarse "caja negra", lo que significa que los usuarios finales no suelen comprender el funcionamiento interno que produce los resultados que utilizan habitualmente. Dado que los sistemas AI dependen cada vez más de conjuntos de datos amplios y complejos, comprender los orígenes y las transformaciones de estos data es crucial para mantener la precisión y la fiabilidad. Data lineage ayuda a las organizaciones a rastrear y validar los data que alimentan los modelos AI , lo que es esencial para optimizar el rendimiento de los modelos y abordar problemas como sesgos o errores. Al proporcionar una pista de auditoría clara, el linaje de data también respalda el cumplimiento de las normativas y mejora la gobernanza de data , lo que en última instancia conduce a aplicaciones AI más informadas, fiables y éticas que impulsan mejores resultados empresariales.
Data Lineage en acción: Cómo podría haber potenciado el desarrollo en el mundo real AI
Data es crucial para cumplir los requisitos normativos y legales en AI, especialmente en virtud de políticas como la Ley de Privacidad del Consumidor de California (CCPA) y la Ley Gramm-Leach-Bliley (GLBA). Por ejemplo, consideremos un caso de uso relacionado con la rotación de clientes en una empresa de servicios financieros. En este caso, el sistema carecía de prácticas normalizadas para anonimizar la información privada y no disponía de data lineage para rastrear los flujos de data . Como resultado, el enriquecimiento de data para enmascarar detalles sensibles se realizó como último paso con una gobernanza mínima. Este enfoque no sólo comprometía la privacidad de data , sino que también exponía el sistema a riesgos de cumplimiento. Si nuestra organización asociada hubiera tenido un sólido linaje de data en Solidatus, la organización podría haber rastreado dónde se estaba utilizando data , capturado las transformaciones de data , garantizado la anonimización adecuada en cada etapa y cumplido los requisitos normativos con mayor eficacia, salvaguardando así la privacidad y mejorando la gobernanza de data .
La mayoría de las organizaciones (80%) han afirmado que su data está listo para su uso en AI, sin embargo, más de la mitad (52%)(3) experimentaron problemas con la implementación basados en la calidad de su data. Data linaje es vital para garantizar data la calidad en el desarrollo de AI , ya que proporciona una visión clara de cómo data se obtiene, transforma y utiliza. En Artefact comprendemos el imperativo de la preparación y la calidad de data . Creemos en un modelo operativo AI que desarrolle los requisitos técnicos simultáneamente con la data preparación y la gobernanza necesarias para desplegar a gran escala un AI fiable. Nuestros equipos trabajaron en un modelo de predicción del riesgo crediticio que se basaba en múltiples data tablas para evaluar el riesgo del prestatario. El equipo descubrió incoherencias entre estas tablas en sus investigaciones preliminares, como discrepancias en los formatos de data o información obsoleta. Esto podía sesgar el modelo y generar una evaluación del riesgo inexacta. Al implantar data lineage, la organización podría rastrear los orígenes de data, identificar dónde surgen incoherencias y garantizar que las transformaciones de data se ajustan a las normas de calidad. Esta transparencia ayuda a corregir los problemas antes de que afecten al modelo, lo que en última instancia conduce a predicciones más fiables y precisas, y mantiene la integridad general del sistema AI .
Data lineage mejora la depuración, las mejoras y la reproducibilidad del modelo AI al ofrecer una visión detallada del recorrido de datapor el proceso de modelado. Si un modelo produce resultados inesperados, el linaje de data ayuda a rastrear data a través de todas las etapas, desde la recopilación hasta el preprocesamiento y la ingeniería de características. Esta visibilidad permite a los científicos de data identificar dónde pueden haber surgido problemas o incoherencias, lo que facilita una depuración precisa y mejoras específicas. Además, la "adaptación al dominio" es un método habitual para reutilizar componentes de algoritmos con el fin de reducir el tiempo y los recursos necesarios para construir un modelo AI desde cero. El linaje es esencial para esta reproducibilidad a través de diferentes iteraciones y experimentos, ya que proporciona la documentación y el uso de data para los algoritmos.
Impulsando el éxito de AI : Cómo Artefact y Solidatus están revolucionando la gestión de Data para las instituciones financieras.
Artefact y Solidatus son socios colaboradores, unidos en su creencia de que la gestión eficaz de data es esencial para el éxito de AI. Akhilesh Kale, líder de Artefact en Servicios Financieros, afirma que "el linaje dedata es la columna vertebral de la confianza en las instituciones financieras, proporcionando esa integridad que es crítica en un panorama tan altamente complejo definido por sus presiones reguladoras". Este énfasis en la integridad de data es fundamental para la forma en que la experiencia de Artefacten la ejecución de data y AI complementa el entorno estructurado de Solidatus, que ayuda a gestionar y almacenar el linaje grueso. Juntos, permiten a las instituciones financieras mejorar la transparencia en la fuente data para los modelos AI . Como destaca Phil Yeoman, antiguo empleado de Cardano, "con Solidatus, nuestro patrimonio data está ahora cartografiado, modelado y catalogado. En una única vista, puedo mostrar a la empresa dónde reside su data , cómo fluye a través de sistemas y aplicaciones, qué normas de calidad de data se aplican y qué data está sujeto a GDPR". Esta perfecta integración de herramientas y servicios subraya el poder transformador de data lineage para AI. Simplifica el cumplimiento de la normativa, garantiza la máxima calidad de data y mejora la precisión de los modelos mediante el seguimiento de data desde el origen hasta el destino. Esta trazabilidad tiene un valor incalculable para cumplir las normas reguladoras, como la CCPA y la GLBA, al tiempo que ayuda a identificar las incoherencias de data que podrían poner en peligro los modelos de AI . Además, el linaje dedata agiliza la depuración, aumenta el rendimiento del modelo y garantiza resultados coherentes y fiables.
Referencias
(1) Prestianni, Timothy. "131 AI Estadísticas y tendencias para (2024)". Universidad Nacional, 30 de mayo de 2024. https://www.nu.edu/blog/ai-statistics-trends/.
(2) Matthew Fox, "How Inteligencia Artificial Is Shaping Consumer Sentiment", Forbes, 22 de septiembre de 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.
(3) Campus Technology, "Informe: AI Adoption Hindered by Data Quality," 10 de abril de 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI -Adoption-Hindered-by- Data-Quality .aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)