Um algoritmo para gerar eventos raros sintéticos de todos os tipos
Uma aplicação comum da artificial intelligence em atribuir uma probabilidade, ou pontuação, a pessoas ou eventos de interesse. Esse problema de pontuação se aplica a muitas áreas, como a detecção de doenças, a manutenção preditiva em fábricas, a propensão dos visitantes online a realizar compras ou o risco de perda de assinantes. Nessas situações, os eventos de interesse são amplamente superados em número pelo total data disponíveis. Esse desequilíbrio torna o treinamento de modelos de aprendizado de máquina particularmente complexo, pois eles tendem a se concentrar na maioria dos casos e ignorar ou subestimar casos raros, o que gera múltiplos problemas operacionais caso AI implantada. Existem alguns algoritmos, mas eles não são adequados para data categóricos e, geralmente, não conseguem melhorar a precisão do modelo final.
Para enfrentar esse desafio, research centerArtefact propôs um novo método de reequilíbrio para data tabulares, levando em conta tanto variáveis numéricas quanto categóricas. Testada em data de código aberto, essa abordagem apresenta melhorias significativas em termos de desempenho, ao mesmo tempo em que mantém a consistência, a plausibilidade e a interpretabilidade dos data, um aspecto frequentemente negligenciado pelos métodos existentes. Data requer a criação de exemplos fictícios, que correm o risco de serem implausíveis, como perfis de clientes que não existem. Esse risco tem um impacto direto na adoção da artificial intelligence casos em que os analistas precisam validar manualmente os exemplos mais prováveis pré-selecionados pelo modelo. Artefact esse problema criando apenas data plausíveis data o reequilíbrio, facilitando sua adoção pelas empresas.

Uma parceria de pesquisa completa com aplicações para os casos de uso do Société Générale
Este trabalho é o resultado de uma parceria tripartite entre o Research CenterArtefact , o Laboratório de Probabilidade, Estatística e Modelagem (LPSM) da Universidade da Sorbonne e a Société Générale. A colaboração permitiu definir um tema de pesquisa de três anos que estabelece um equilíbrio entre os desafios estatísticos e de TI e as questões concretas enfrentadas pelas equipes de negócios, para as quais não existem soluções de ponta. De fato, no caso desta aplicação, vários especialistas em vendas relataram o problema da inconsistência nos perfis bancários gerados pelas abordagens existentes, o que limitava a adoção de uma ferramenta AI, levantando assim o desafio de manter sugestões plausíveis durante o algoritmo de reequilíbrio.
Por meio dessa parceria, pesquisadores da Artefact da Universidade da Sorbonne puderam testar suas abordagens em data bancários reais, o que validou a precisão estatística do algoritmo proposto. Além disso, um aspecto singular no teste do desempenho do método proposto foi a ampliação para milhões de data a serem processados em um período de tempo razoável, superando assim o tamanho de conjuntos de dados de código aberto equivalentes. O código é de código aberto e a metodologia é explicada em detalhes no artigo científico, permitindo que o maior número possível de pessoas utilize a abordagem para outros casos de uso de pontuação.
Etienne GUIBOUT, diretor AI do Grupo Société Générale, explica:
“Essa colaboração proporciona ao Societe Generale acesso a conhecimentos especializados complementares do mundo acadêmico. Ela promove a inovação ao incorporar uma variedade de perspectivas com o objetivo de identificar soluções cada vez mais adaptadas aos nossos problemas. A aceitação em uma conferência de nível A é um selo de qualidade para as equipes do Societe Generale. Isso demonstra o reconhecimento do impacto do trabalho realizado por colegas e especialistas do setor. Participar desses eventos nos permite compartilhar nossas pesquisas, mantendo-nos integrados ao ecossistema. As equipes de negócios do Societe Generale, particularmente a de conformidade, estiveram envolvidas no desenvolvimento deste artigo. Sua expertise setorial e feedback confirmaram a relevância e a aplicabilidade do conteúdo apresentado. Essa colaboração interdisciplinar garante que o artigo reflita as realidades do mercado e atenda, em primeiro lugar, às nossas necessidades e às de nossos clientes.”
Emmanuel Malherbe, diretor doResearch Center Artefact :
“Esta é uma parceria ideal para research center nosso research center, ilustrando perfeitamente nossa visão de pesquisa aplicada, útil e compartilhada. O aprendizado de máquina é uma área que sempre começa com data um problema real. Por meio dessa colaboração, conseguimos nos concentrar na questão mal resolvida da pontuação em data tabulares desequilibrados, que, no entanto, é um problema recorrente nos negócios e levanta muitas questões estatísticas. A possibilidade de testar e validar a abordagem em data reais também data fundamental para alcançar um algoritmo rápido, eficiente e preciso.”
Link para o artigo científico e o código do algoritmo:
- Abdoulaye Sakho, Emmanuel Malherbe, Carl-Erik Gauthier e Erwan Scornet.
“Aproveitamento de características mistas para Data desequilibrados: aplicação à pontuação de clientes bancários.” Na Conferência Europeia Conjunta sobre Aprendizado de Máquina e Descoberta de Conhecimento em Bancos de Dados (2025) - https://github.com/artefactory/mgs-grf
research center Artefact research center ponte entre o meio acadêmico e a indústria
Somos uma equipe de 20 pesquisadores que atuam nas áreas de aprendizado de máquina, ciência da computação e ciência da gestão. Nos dedicamos a aprimorar AI , seja tornando-os mais interpretáveis e controláveis, seja estudando sua aplicação nas empresas. Todo o nosso trabalho é de código aberto, com apresentações em conferências internacionais revisadas por pares, publicações científicas, white papers e código disponível gratuitamente. Colaboramos estreitamente com renomados professores universitários. Nossa filosofia é fazer a ponte entre a indústria e a academia. Nossas áreas de pesquisa são inspiradas por problemas do mundo real encontrados nos Artefact com nossos clientes, e estamos continuamente estabelecendo parcerias industriais para testar nossas metodologias em casos de uso e conjuntos de dados reais.

Um exemplo crucial diz respeito à explicabilidade dos modelos estatísticos. A adoção de modelos de aprendizado de máquina é dificultada em muitos casos de uso devido à natureza de “caixa preta” de certos modelos ou, em outras palavras, à sua falta de transparência e compreensibilidade. É necessário, portanto, propor modelos mais transparentes, minimizando ao mesmo tempo a deterioração do desempenho preditivo associada a eles. Por meio das soluções que propõe, o research center promovendo a adoção da AI oferecer as garantias desejadas pela indústria.

BLOG






