Autor

Tina Chace

Autor

Akhilesh Kale

Autor

Robyn Kiernan

Comprender el linaje Data: Explorando su definición y su creciente adopción en las organizaciones

En el mundo actual de la data-driven, comprender el recorrido de la data -desde su origen hasta su destino final- es más crucial que nunca. Esta capacidad, denominada linaje data, proporciona una visión completa de cómo fluye la data a través de una organización, detallando sus transformaciones y dependencias a lo largo del camino. El linaje Data varía en términos de niveles de complejidad, siendo el “linaje grueso” el que muestra las transformaciones de tabla a tabla, y el “linaje fino” el que se sitúa en el nivel de los atributos. Estos activos pueden mapearse en herramientas como Solidatus, proporcionando un método automatizado para crear una visión clara de las fuentes, la transformación y el uso de data. En Artefact, nuestros equipos diseñan y construyen productos data e IA para nuestros clientes día tras día, y el linaje ayuda a nuestros clientes a responder a preguntas como: “¿Qué sistemas nos están dando este saldo de clientes, ya que parece inexacto?” o “¿Por qué mi modelo de propensión al préstamo a clientes tiene resultados diferentes específicamente los miércoles?”. Seguimos una metodología de seis pasos meticulosamente estructurada para desplegar el linaje a escala, empezando por una evaluación exhaustiva del caso de uso empresarial único y su valor intrínseco. Este proceso culmina en una implantación sin fisuras, en la que el mantenimiento continuo y la adopción por parte del usuario se integran en el núcleo.

Chart: Artefact Lineage Approach for better governance and decision-making

Las empresas aprovechan el linaje data por varias razones clave, entre las que destacan el cumplimiento normativo y la gestión de la calidad data. En el sector de los servicios financieros, un linaje data robusto es esencial para cumplir los estrictos requisitos de auditoría y principios como el BCBS 239, garantizando el cumplimiento de las normativas en torno a la gobernanza, la arquitectura data, la agregación de riesgos data, la precisión, la integridad y la frecuencia de los informes de riesgos. Por ejemplo, en un caso de Banca Comercial en el que la evaluación de un flujo de trabajo de informes financieros hipotecarios permite a una empresa rastrear los orígenes y el consumo de data sensibles.

solidatus Data Map

Mirando más allá del cumplimiento, el linaje data es una poderosa herramienta para mejorar la calidad data, permitiendo a las organizaciones hacer un seguimiento de los problemas data, validar la precisión y mantener la confianza en sus sistemas de información. Este artículo ahondará en los entresijos del linaje data, concretamente en el linaje grueso, y explorará por qué se ha convertido en una piedra angular de las estrategias modernas de gestión data.

El rápido ascenso de la IA en los servicios financieros: Oportunidades, retos y camino a seguir

Partiendo de la importancia de comprender el data, la Inteligencia Artificial (IA) está transformando el panorama de los servicios financieros modernos, simulando la inteligencia humana para realizar tareas que requieren aprendizaje y toma de decisiones. Las aplicaciones de la IA son diversas e impactantes: la IA conversacional, como los chatbots, mejora las interacciones con los clientes; los asistentes de productividad agilizan los flujos de trabajo y automatizan las tareas; y el análisis automatizado de data acelera la obtención de conocimientos a partir de data complejos. En agosto de 2024, la Ley de IA de la Unión Europea introdujo nuevas normativas destinadas a garantizar un uso ético de la IA y proteger los derechos de los usuarios, lo que pone de relieve el cambio mundial hacia una aplicación responsable de la IA. Este desarrollo subraya la creciente necesidad de que las organizaciones no sólo aprovechen el poder de la IA, sino que también la gestionen con una cuidadosa supervisión, complementando sus esfuerzos en el linaje de data y la gestión de la calidad.

Mientras que el uso de IA Generativa de código abierto como ChatGPT para uso personal, integrar la IA en una organización y generar valor real para el negocio es un juego de pelota diferente. La mayoría de las instituciones financieras se encuentran en la rápida carrera de producir pilotos y POC de IA Generativa, sin embargo, sólo se comprometen dólares reales cuando se demuestra que creen que los beneficios potenciales son fiables y que el producto es adecuado tanto para los usuarios empresariales como para los técnicos. Muchas instituciones siguen luchando por escalar estas tecnologías debido a preocupaciones sobre la fiabilidad (74%), la adopción por parte de los usuarios (60%)(1) y la insuficiente experiencia técnica (60%). Un marco de escalabilidad de Gen AI es lo que ha construido Artefact para abordar las dimensiones centrales de la escalabilidad: Relevancia de los resultados, Explicabilidad, Equidad/Sesgo, Latencia, Infraestructura, Eficiencia organizativa y Experiencia/Adopción del usuario.

En el contexto de la IA, el linaje data ofrece un importante valor empresarial al garantizar la transparencia y la fiabilidad en las decisiones data-driven. En la actualidad, más del 75% de los consumidores están preocupados por la información errónea procedente de la IA(2). A menudo se hace referencia a la IA como una “caja negra”, lo que significa que los usuarios finales a menudo no comprenden el funcionamiento interno que produce el resultado que utilizan habitualmente. Dado que los sistemas de IA dependen cada vez más de conjuntos de data vastos y complejos, comprender los orígenes y las transformaciones de estos data es crucial para mantener la precisión y la fiabilidad. El linaje de la Data ayuda a las organizaciones a rastrear y validar la data que alimenta los modelos de IA, lo que resulta esencial para optimizar el rendimiento de los modelos y abordar problemas como sesgos o errores. Al proporcionar una pista de auditoría clara, el linaje data también apoya el cumplimiento de la normativa y mejora el data governance, lo que en última instancia conduce a aplicaciones de IA más informadas, fiables y éticas que impulsan mejores resultados empresariales.

Data Lineage en acción: Cómo podría haber potenciado el desarrollo de la IA en el mundo real

El linaje Data es crucial para cumplir los requisitos normativos y legales en materia de IA, especialmente en virtud de políticas como la Ley de Privacidad del Consumidor de California (CCPA) y la Ley Gramm-Leach-Bliley (GLBA). Por ejemplo, consideremos un caso de uso relacionado con la rotación de clientes en una empresa de servicios financieros. En este caso, el sistema carecía de prácticas estandarizadas para anonimizar la información privada y no tenía un linaje data para rastrear los flujos data. Como resultado, el enriquecimiento data para enmascarar detalles sensibles se realizó como último paso con una gobernanza mínima. Este enfoque no sólo comprometía la privacidad data sino que también exponía el sistema a riesgos de cumplimiento. Si nuestra organización asociada hubiera contado con un sólido linaje de data en Solidatus, la organización podría haber rastreado dónde se estaba utilizando data, capturado las transformaciones de data, garantizado la anonimización adecuada en cada etapa y cumplido los requisitos normativos con mayor eficacia, salvaguardando así la privacidad y mejorando data governance.

La mayoría de las organizaciones (80%) han afirmado que su data está listo para ser utilizado en IA, sin embargo más de la mitad (52%)(3) experimentaron problemas con la implementación basados en la calidad de su data. El linaje del Data es vital para garantizar la calidad del data en el desarrollo de la IA, ya que proporciona una visión clara de cómo se obtiene, transforma y utiliza el data. En Artefact comprendemos el imperativo de la preparación y la calidad data. Creemos en un modelo operativo de IA que desarrolle los requisitos técnicos simultáneamente con la preparación y la gobernanza data necesarias para desplegar una IA fiable a gran escala. Nuestros equipos trabajaron en un modelo de predicción del riesgo crediticio que se basaba en múltiples tablas data para evaluar el riesgo del prestatario. El equipo descubrió incoherencias entre estas tablas en sus investigaciones preliminares, como discrepancias en los formatos data o información obsoleta. Esto provocaría que el modelo estuviera sesgado y se generara una evaluación del riesgo inexacta. Al implantar el linaje data, la organización podría rastrear los orígenes del data, identificar dónde surgen las incoherencias y garantizar que las transformaciones data se ajustan a las normas de calidad. Esta transparencia ayuda a corregir los problemas antes de que afecten al modelo, lo que en última instancia conduce a predicciones más fiables y precisas, y mantiene la integridad general del sistema de IA.

El linaje Data mejora la depuración, las mejoras y la reproducibilidad del modelo de IA al ofrecer una visión detallada del recorrido del data a través del proceso de modelado. Si un modelo está produciendo resultados inesperados, el linaje data ayuda a rastrear el data a través de todas las etapas, desde la recogida hasta el preprocesamiento y la ingeniería de características. Esta visibilidad permite a los científicos del data identificar dónde pueden haber surgido problemas o incoherencias, lo que facilita una depuración precisa y mejoras específicas. Además, la “adaptación al dominio” es un método común para reutilizar componentes de algoritmos con el fin de reducir el tiempo y los recursos necesarios para construir un modelo de IA desde cero. El linaje es esencial para esta reproducibilidad a través de diferentes iteraciones y experimentos, ya que proporciona la documentación y el uso de data para los algoritmos.

Impulsando el éxito de la IA: Cómo Artefact y Solidatus están revolucionando la gestión Data de las instituciones financieras

Artefact y Solidatus son socios colaboradores, unidos en su creencia de que la gestión eficaz de data es esencial para el éxito de la IA. Akhilesh Kale, líder de Artefact en Servicios Financieros, afirma que “el linaje data es la columna vertebral de la confianza en las instituciones financieras, proporcionando esa integridad que es crítica en un panorama tan altamente complejo definido por sus presiones reguladoras.” Este énfasis en la integridad data es fundamental en la forma en que la experiencia de Artefact en la ejecución data y AI complementa el entorno estructurado de Solidatus, que ayuda a gestionar y almacenar el linaje grueso. Juntos, permiten a las instituciones financieras mejorar la transparencia en el data fuente de los modelos de IA. Como destaca Phil Yeoman, antiguo empleado de Cardano, ’con Solidatus, nuestro patrimonio data está ahora mapeado, modelado y catalogado. En una sola vista, puedo mostrar a la empresa dónde reside su data, cómo fluye a través de sistemas y aplicaciones, qué normas de calidad de data se aplican y qué data está sujeto al GDPR“. Esta perfecta integración de herramientas y servicios subraya el poder transformador del linaje data para la IA. Simplifica la navegación por el cumplimiento de la normativa, garantiza una calidad data de primer nivel y mejora la precisión de los modelos mediante la trazabilidad del data desde el origen hasta el destino. Esta trazabilidad tiene un valor incalculable para cumplir las normas reglamentarias, como la CCPA y la GLBA, al tiempo que ayuda a identificar las incoherencias de data que podrían comprometer los modelos de IA. Además, Linaje data agiliza la depuración, aumenta el rendimiento del modelo y garantiza unos resultados coherentes y fiables.

Referencias

(1) Prestianni, Timothy. “131 Estadísticas y tendencias de la IA para (2024)”. Universidad Nacional, 30 de mayo de 2024. https://www.nu.edu/blog/ai-statistics-trends/.

(2) Matthew Fox, “How Artificial Intelligence Is Shaping Consumer Sentiment”, Forbes, 22 de septiembre de 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.

(3) Campus Technology, “Informe: AI Adoption Hindered by Data Quality”, 10 de abril de 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)