Autor
Tina Chace
Autor
Akhilesh Kale
Autor
Robyn Kiernan
Entendendo a linhagem Data: Explorando sua definição e a crescente adoção nas organizações
No mundo atual do data-driven, entender a jornada do data - desde sua origem até seu destino final - é mais crucial do que nunca. Esse recurso, conhecido como linhagem do data, oferece uma visão abrangente de como o data flui por uma organização, detalhando suas transformações e dependências ao longo do caminho. A linhagem do Data varia em termos de níveis de complexidade, com a “linhagem grosseira” demonstrando as transformações de tabela para tabela e a “linhagem fina” no nível do atributo. Esses ativos podem ser mapeados em ferramentas como o Solidatus, fornecendo um método automatizado para criar uma visão geral clara das fontes, transformações e uso do data. Na Artefact, nossas equipes projetam e constroem produtos data e de IA para nossos clientes dia após dia, e a linhagem ajuda nossos clientes a responder a perguntas como: “Quais sistemas estão nos fornecendo esse saldo de clientes, já que ele parece impreciso?” ou “Por que meu modelo de propensão a empréstimos de clientes está apresentando resultados diferentes especificamente às quartas-feiras?” Seguimos uma metodologia meticulosamente estruturada em seis etapas para implantar a linhagem em escala, começando com uma avaliação abrangente do caso de uso comercial exclusivo e seu valor intrínseco. Esse processo culmina em uma implementação perfeita, em que a manutenção contínua e a adoção pelo usuário estão integradas no núcleo.

As empresas utilizam a linhagem data por vários motivos importantes, sendo que a conformidade regulatória e o gerenciamento da qualidade data estão em primeiro lugar. No setor de serviços financeiros, uma linhagem data robusta é essencial para atender aos rigorosos requisitos e princípios de auditoria, como o BCBS 239, garantindo a adesão às normas de governança, arquitetura data, agregação data de riscos, precisão, integridade e frequência dos relatórios de riscos. Por exemplo, em um caso de banco comercial, em que a avaliação de um fluxo de trabalho de relatório financeiro de hipoteca permite que uma empresa rastreie as origens e o consumo de data confidenciais.

Além da conformidade, a linhagem do data é uma ferramenta poderosa para melhorar a qualidade do data, permitindo que as organizações rastreiem os problemas do data, validem a precisão e mantenham a confiança em seus sistemas de informação. Este artigo abordará os meandros da linhagem do data, especificamente a linhagem grosseira, e explorará por que ela se tornou a pedra angular das estratégias modernas de gerenciamento do data.
O rápido crescimento da IA nos serviços financeiros: Oportunidades, desafios e o caminho a seguir
Com base na importância de entender o data, a Inteligência Artificial (IA) está transformando o cenário moderno dos serviços financeiros, simulando a inteligência humana para realizar tarefas que exigem aprendizado e tomada de decisões. As aplicações da IA são diversas e impactantes: a IA conversacional, como os chatbots, aprimora as interações com os clientes; os assistentes de produtividade simplificam os fluxos de trabalho e automatizam as tarefas; e a análise automatizada do data acelera os insights de conjuntos complexos de data. Em agosto de 2024, a Lei de IA da União Europeia introduziu novas regulamentações com o objetivo de garantir o uso ético da IA e proteger os direitos dos usuários, destacando a mudança global em direção à implementação responsável da IA. Esse desenvolvimento ressalta a necessidade crescente de as organizações não apenas aproveitarem o poder da IA, mas também gerenciarem-na com uma supervisão cuidadosa, complementando seus esforços na linhagem data e no gerenciamento da qualidade.
Embora o uso de IA generativa de código aberto, como o ChatGPT, seja para uso pessoal, integrar a IA em uma organização e gerar valor real para os negócios é um jogo diferente. A maioria das instituições financeiras está na corrida rápida de produzir pilotos e POCs de IA Gen. No entanto, o dinheiro real só é comprometido quando é provado que elas acreditam que os benefícios potenciais são confiáveis e que o produto é adequado para usuários comerciais e técnicos. Muitas instituições ainda estão lutando para dimensionar essas tecnologias devido a preocupações com a confiabilidade (74%), a adoção pelo usuário (60%)(1) e o conhecimento técnico insuficiente (60%). Uma estrutura de escalabilidade da Gen AI foi criada pelo Artefact para abordar as principais dimensões de escalabilidade: Relevância do resultado, explicabilidade, justiça/preconceito, latência, infraestrutura, eficiência organizacional e experiência/adoção do usuário.
No contexto da IA, a linhagem data oferece um valor comercial significativo, garantindo transparência e confiabilidade nas decisões data-driven. Atualmente, mais de 75% dos consumidores estão preocupados com informações errôneas provenientes da IA(2). A IA é muitas vezes chamada de “caixa preta”, o que significa que os usuários finais frequentemente não entendem o funcionamento interno que produz o resultado que estão usando regularmente. Como os sistemas de IA dependem cada vez mais de conjuntos vastos e complexos de data, entender as origens e as transformações desse data é fundamental para manter a precisão e a confiabilidade. A linhagem do Data ajuda as organizações a rastrear e validar o data que alimenta os modelos de IA, o que é essencial para otimizar o desempenho do modelo e solucionar problemas como viés ou erros. Ao fornecer uma trilha de auditoria clara, a linhagem do data também apoia a conformidade com os regulamentos e aprimora o data governance, levando, em última análise, a aplicativos de IA mais informados, confiáveis e éticos que geram melhores resultados comerciais.
A linhagem Data em ação: Como ela poderia ter impulsionado o desenvolvimento de IA no mundo real
A linhagem Data é fundamental para atender aos requisitos regulamentares e legais em IA, especialmente de acordo com políticas como a Lei de Privacidade do Consumidor da Califórnia (CCPA) e a Lei Gramm-Leach-Bliley (GLBA). Por exemplo, considere um caso de uso que envolve a rotatividade de clientes em uma empresa de serviços financeiros. Nesse caso, o sistema não tinha práticas padronizadas para tornar anônimas as informações privadas e não tinha uma linhagem de data para rastrear os fluxos de data. Como resultado, o enriquecimento do data para mascarar detalhes confidenciais foi realizado como uma última etapa com governança mínima. Essa abordagem não apenas comprometia a privacidade do data, mas também expunha o sistema a riscos de conformidade. Se nossa organização parceira tivesse uma linhagem robusta de data no Solidatus, ela poderia ter rastreado onde o data estava sendo usado, capturado as transformações do data, garantido a anonimização adequada em cada estágio e atendido aos requisitos regulatórios de forma mais eficaz, protegendo assim a privacidade e aprimorando o data governance.
A maioria das organizações (80%) afirmou que seu data está pronto para uso em IA, mas mais da metade (52%)(3) teve problemas com a implementação com base na qualidade de seu data. A linhagem do Data é vital para garantir a qualidade do data no desenvolvimento de IA, pois fornece uma visão clara de como o data é obtido, transformado e utilizado. No Artefact, entendemos o imperativo da prontidão e da qualidade do data. Acreditamos em um modelo operacional de IA que desenvolve os requisitos técnicos simultaneamente com a preparação e a governança do data necessárias para implantar uma IA confiável em larga escala. Nossas equipes trabalharam em um modelo de previsão de risco de crédito que dependia de várias tabelas data para avaliar o risco do tomador de empréstimo. A equipe descobriu inconsistências entre essas tabelas em suas investigações preliminares, como discrepâncias nos formatos do data ou informações desatualizadas. Isso fazia com que o modelo ficasse distorcido e gerasse uma avaliação de risco imprecisa. Ao implementar a linhagem do data, a organização poderia rastrear as origens do data, identificar onde surgem as inconsistências e garantir que as transformações do data se alinhem aos padrões de qualidade. Essa transparência ajuda a corrigir os problemas antes que eles afetem o modelo, levando a previsões mais confiáveis e precisas e mantendo a integridade geral do sistema de IA.
A linhagem do Data aprimora a depuração, as melhorias e a reprodutibilidade do modelo de IA, oferecendo uma visão detalhada da jornada do data no processo de modelagem. Se um modelo estiver produzindo resultados inesperados, a linhagem do data ajuda a rastrear o data em todos os estágios - desde a coleta até o pré-processamento e a engenharia de recursos. Essa visibilidade permite que os cientistas do data identifiquem onde podem ter surgido problemas ou inconsistências, facilitando a depuração precisa e melhorias direcionadas. Além disso, a “Adaptação de Domínio” é um método comum de reutilização de componentes de algoritmos para reduzir o tempo e os recursos necessários para criar um modelo de IA do zero. A linhagem é essencial para essa reprodutibilidade em diferentes iterações e experimentos, pois fornece a documentação e o uso do data para os algoritmos.
Potencializando o sucesso da IA: Como a Artefact e a Solidatus estão revolucionando o gerenciamento de Data para instituições financeiras
Artefact e Solidatus são parceiros colaborativos, unidos na crença de que o gerenciamento eficaz do data é essencial para o sucesso da IA. Akhilesh Kale, líder do Artefact em Serviços Financeiros, afirma que “a linhagem do data é a espinha dorsal da confiança nas instituições financeiras, proporcionando a integridade que é fundamental em um cenário altamente complexo definido por suas pressões regulatórias”. Essa ênfase na integridade do data é fundamental para a forma como a experiência do Artefact na execução do data e da IA complementa o ambiente estruturado da Solidatus, que ajuda a gerenciar e armazenar a linhagem grosseira. Juntos, eles permitem que as instituições financeiras aumentem a transparência no data de origem dos modelos de IA. Como destaca Phil Yeoman, ex-Cardano, ’com a Solidatus, nosso patrimônio data agora está mapeado, modelado e catalogado. Em uma única visualização, posso mostrar à empresa onde reside seu data, como ele flui pelos sistemas e aplicativos, quais regras de qualidade do data se aplicam e qual data está sujeito ao GDPR.“ Essa integração perfeita de ferramentas e serviços ressalta o poder transformador da linhagem data para IA. Ela simplifica a navegação em conformidade, garante a qualidade de primeira linha do data e aumenta a precisão do modelo ao rastrear o data da origem ao destino. Essa rastreabilidade é inestimável para atender às normas regulatórias, como a CCPA e a GLBA, além de ajudar a identificar inconsistências do data que poderiam comprometer os modelos de IA. Além disso, Linhagem data simplifica a depuração, aumenta o desempenho do modelo e garante resultados consistentes e confiáveis.
Referências
(1) Prestianni, Timothy. “131 AI Statistics and Trends for (2024).” Universidade Nacional, 30 de maio de 2024. https://www.nu.edu/blog/ai-statistics-trends/.
(2) Matthew Fox, “How Artificial Intelligence Is Shaping Consumer Sentiment”, Forbes, 22 de setembro de 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.
(3) Campus Technology, “Report: AI Adoption Hindered by Data Quality”, 10 de abril de 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI-Adoption-Hindered-by-Data-Quality.aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)

BLOG








