Autor
Tina Chace
Autor
Akhilesh Kale
Autor
Robyn Kiernan
Entendendo Data Lineage: Explorando sua definição e a crescente adoção nas organizações
No mundo atual, orientado pelo data, compreender a jornada do data- desde sua origem até seu destino final - é mais crucial do que nunca. Esse recurso, conhecido como data lineage, oferece uma visão abrangente de como o data flui por uma organização, detalhando suas transformações e dependências ao longo do caminho. O Data lineage varia em termos de níveis de complexidade, com o "coarse lineage" demonstrando as transformações de tabela para tabela e o "fine lineage" em nível de atributo. Esses ativos podem ser mapeados em ferramentas como o Solidatus, fornecendo um método automatizado para criar uma visão geral clara das fontes, transformações e uso do data . data Na Artefact, nossas equipes projetam e criam produtos data e AI para nossos clientes todos os dias, e a linhagem ajuda nossos clientes a responder a perguntas como: "Quais sistemas estão nos fornecendo esse saldo de clientes, já que ele parece impreciso?" ou "Por que meu modelo de propensão a empréstimos de clientes está apresentando resultados diferentes especificamente às quartas-feiras?" Seguimos uma metodologia meticulosamente estruturada em seis etapas para implantar a linhagem em escala, começando com uma avaliação abrangente do caso de uso comercial exclusivo e seu valor intrínseco. Esse processo culmina em uma implementação perfeita, em que a manutenção contínua e a adoção pelo usuário estão integradas no núcleo.
As empresas utilizam a data linhagem por vários motivos importantes, sendo que a conformidade regulatória e o data gerenciamento da qualidade estão em primeiro lugar. data No setor de serviços financeiros, a linhagem data robusta é essencial para atender aos rigorosos requisitos e princípios de auditoria, como o BCBS 239, garantindo a adesão aos regulamentos sobre governança, data arquitetura, agregação de riscos, precisão, integridade e frequência dos relatórios de riscos. Por exemplo, em um caso de banco comercial, em que a avaliação de um fluxo de trabalho de relatório financeiro de hipoteca permite que uma empresa rastreie as origens e o consumo de informações confidenciais data.
Além da conformidade, a linhagem data é uma ferramenta poderosa para melhorar a qualidade data , permitindo que as organizações rastreiem problemas data , validem a precisão e mantenham a confiança em seus sistemas de informação. Este artigo se aprofundará nos meandros da linhagem data , especificamente a linhagem grosseira, e explorará por que ela se tornou a pedra angular das estratégias modernas de gerenciamento data .
AIO rápido crescimento dos serviços financeiros da Índia: Oportunidades, desafios e o caminho a seguir
Com base na importância da compreensão data, Artificial Intelligence (AI) está transformando o cenário dos serviços financeiros modernos, simulando a inteligência humana para realizar tarefas que exigem aprendizado e tomada de decisões. AIOs aplicativos da AI são diversos e impactantes: a conversação , como os chatbots, aprimora as interações com os clientes; os assistentes de produtividade simplificam os fluxos de trabalho e automatizam as tarefas; e a análise data automatizada acelera os insights de conjuntos de dados complexos. Em agosto de 2024, a Lei AI da União Europeia introduziu novas regulamentações com o objetivo de garantir o uso ético da AI e proteger os direitos do usuário, destacando a mudança global para a implementação responsável da AI . Esse desenvolvimento ressalta a necessidade cada vez maior de as organizações não apenas aproveitarem o poder da AI, mas também gerenciá-lo com uma supervisão cuidadosa, complementando seus esforços na data linhagem e no gerenciamento da qualidade.
Embora o uso do Generative AI de código aberto, como o ChatGPT, seja para uso pessoal, a integração do AI em uma organização e a geração de valor real para os negócios são coisas diferentes. A maioria das instituições financeiras está na corrida rápida de produzir pilotos e POCs da geração AI . No entanto, o dinheiro real só é investido quando é comprovado que elas acreditam que os possíveis benefícios são confiáveis e que o produto é adequado para usuários comerciais e técnicos. Muitas instituições ainda estão lutando para dimensionar essas tecnologias devido a preocupações com a confiabilidade (74%), a adoção pelos usuários (60%)(1) e o conhecimento técnico insuficiente (60%). Uma estrutura de escalabilidade da Gen AI foi criada pela Artefact para abordar as principais dimensões de escalabilidade: Relevância dos resultados, explicabilidade, justiça/preconceito, latência, infraestrutura, eficiência organizacional e experiência/adoção do usuário.
No contexto do AI, a linhagem do data oferece um valor comercial significativo ao garantir transparência e confiabilidade nas decisões orientadas pelo data. Atualmente, mais de 75% dos consumidores estão preocupados com as informações incorretas do AI(2). O AI é frequentemente chamado de "caixa preta", o que significa que os usuários finais muitas vezes não entendem o funcionamento interno que produz o resultado que eles usam regularmente. Como os sistemas AI dependem cada vez mais de conjuntos de dados vastos e complexos, entender as origens e as transformações desses data é fundamental para manter a precisão e a confiabilidade. A linhagem do Data ajuda as organizações a rastrear e validar o data que alimenta os modelos AI , o que é essencial para otimizar o desempenho do modelo e resolver problemas como viés ou erros. Ao fornecer uma trilha de auditoria clara, a data linhagem também apoia a conformidade com os regulamentos e aprimora a data governança, o que, em última análise, leva a aplicativos AI mais informados, confiáveis e éticos que geram melhores resultados comerciais.
Data Linhagem em ação: How It Could Have Supercharged Real-World AI Development
Data é fundamental para atender aos requisitos regulamentares e legais em AI, especialmente de acordo com políticas como a Lei de Privacidade do Consumidor da Califórnia (CCPA) e a Lei Gramm-Leach-Bliley (GLBA). Por exemplo, considere um caso de uso que envolve a rotatividade de clientes em uma empresa de serviços financeiros. Nesse caso, o sistema não tinha práticas padronizadas para tornar anônimas as informações privadas e não tinha uma linhagem data para rastrear os fluxos data . Como resultado, o enriquecimento de data para mascarar detalhes confidenciais foi realizado como uma última etapa com governança mínima. Essa abordagem não só comprometeu a privacidade do data como também expôs o sistema a riscos de conformidade. Se a nossa organização parceira tivesse uma linhagem data robusta no Solidatus, ela poderia ter rastreado onde o data estava sendo usado, capturado as transformações do data , assegurado a anonimização adequada em cada estágio e atendido aos requisitos regulatórios de forma mais eficaz, protegendo assim a privacidade e aprimorando a governança do data .
A maioria das organizações (80%) afirmou que seu data está pronto para ser usado no AI, mas mais da metade (52%)(3) teve problemas com a implementação com base na qualidade de seu data. A linhagem do Data é vital para garantir a qualidade do data no desenvolvimento do AI , pois fornece uma visão clara de como o data é obtido, transformado e utilizado. Na Artefact, entendemos a necessidade imperativa de data prontidão e qualidade. Acreditamos em um modelo operacional AI que desenvolva os requisitos técnicos simultaneamente com a preparação e a governança data necessárias para implantar um AI confiável em larga escala. Nossas equipes trabalharam em um modelo de previsão de risco de crédito que se baseava em várias tabelas data para avaliar o risco do mutuário. A equipe descobriu inconsistências entre essas tabelas em suas investigações preliminares, como discrepâncias nos formatos data ou informações desatualizadas. Isso causaria uma distorção no modelo e geraria uma avaliação de risco imprecisa. Ao implementar a linhagem do data , a organização poderia rastrear as origens do data, identificar onde surgem as inconsistências e garantir que as transformações do data estejam alinhadas aos padrões de qualidade. Essa transparência ajuda a corrigir os problemas antes que eles afetem o modelo, levando a previsões mais confiáveis e precisas e mantendo a integridade geral do sistema AI .
Data A linhagem aprimora a depuração, as melhorias e a reprodutibilidade do modelo AI oferecendo uma visão detalhada da jornada do dataprocesso de modelagem. Se um modelo estiver produzindo resultados inesperados, a linhagem do data ajuda a rastrear o data em todos os estágios, desde a coleta até o pré-processamento e a engenharia de recursos. Essa visibilidade permite que os cientistas da data identifiquem onde podem ter surgido problemas ou inconsistências, facilitando a depuração precisa e melhorias direcionadas. Além disso, a "Adaptação ao Domínio" é um método comum de reutilização de componentes de algoritmos para reduzir o tempo e os recursos necessários para criar um modelo AI do zero. A linhagem é essencial para essa reprodutibilidade em diferentes iterações e experimentos, pois fornece a documentação e o uso do data para os algoritmos.
Potencializando o sucesso do AI : Como Artefact e Solidatus estão revolucionando o gerenciamento de Data para instituições financeiras
Artefactdata AI Akhilesh Kale, líder da Artefact em Serviços Financeiros, afirma que "a linhagem dadata é a espinha dorsal da confiança nas instituições financeiras, fornecendo a integridade que é crítica em um cenário altamente complexo definido por suas pressões regulatórias". Essa ênfase na integridade do data é fundamental para a forma como a experiência da Artefactna execução do data e do AI complementa o ambiente estruturado da Solidatus, que ajuda a gerenciar e armazenar a linhagem grosseira. Juntos, eles permitem que as instituições financeiras aumentem a transparência da fonte data para os modelos AI . Como destaca Phil Yeoman, ex-Cardano, "com a Solidatus, nosso patrimônio data agora está mapeado, modelado e catalogado. Em uma única visualização, posso mostrar à empresa onde reside seu data , como ele flui pelos sistemas e aplicativos, quais regras de qualidade data se aplicam e o que data está sujeito ao GDPR". Essa integração perfeita de ferramentas e serviços ressalta o poder transformador da data linhagem para AI. Ela simplifica a navegação em conformidade, garante a qualidade de alto nível do data e aprimora a precisão do modelo ao rastrear o data da origem ao destino. Essa rastreabilidade é inestimável para atender às normas regulatórias, como a CCPA e a GLBA, além de ajudar a identificar inconsistências da data que poderiam comprometer os modelos da AI . Além disso, a linhagem dodata simplifica a depuração, aumenta o desempenho do modelo e garante resultados consistentes e confiáveis.
Referências
(1) Prestianni, Timothy. "131 AI Statistics and Trends for (2024)." Universidade Nacional, 30 de maio de 2024. https://www.nu.edu/blog/ai-statistics-trends/.
(2) Matthew Fox, "How Artificial Intelligence Is Shaping Consumer Sentiment", Forbes, 22 de setembro de 2023, https://www.forbes.com/advisor/business/artificial-intelligence-consumer-sentiment/.
(3) Campus Technology, "Report: AI Adoption Hindered by Data Quality," April 10, 2024, https://campustechnology.com/Articles/2024/04/10/Report-AI -Adoption-Hindered-by- Data-Quality .aspx#:~:text=Organizations%20Have%20Serious%20Concerns%20Around,and%20integration%20complexity%20(59%25)