Paris, 10 de março de 2025

Treinada em 5.000 bilhões de tokens, essa suíte oferece modelos soberanos e de código aberto que proporcionam o melhor desempenho de representação de texto para idiomas europeus, bem como para tarefas relacionadas à matemática e à codificação.

A colaboração entre o laboratório MICS do CentraleSupélec, a Diabolocom, a Artefact e a Unbabel, com o apoio da experiência tecnológica da AMD e do CINES, resultou no lançamento do mais avançado modelo de representação de texto multilíngue. Esse modelo serve como um bloco de construção fundamental para recuperação de informações (RAG), classificação e estimativa de qualidade (resumo, tradução).

Esses tipos de modelos são essenciais no processamento de linguagem natural (NLP) e estão entre os mais baixados no Hugging Face há muitos anos. Sua capacidade de capturar com precisão o significado e o contexto das frases, oferecendo uma compreensão linguística refinada e aprofundada, é crucial para o desenvolvimento de aplicativos avançados de artificial intelligence. O novo modelo EuroBERT está disponível desde 10 de março de 2025, sob a licença Apache 2.0, no site Plataforma Hugging Face.

O projeto de pesquisa foi liderado por Nicolas Boizard, candidato a PhD do Cifre na Diabolocom, com contribuições importantes de Hippolyte Gisserot-Boukhlef, candidato a PhD do Cifre na Artefact, e Duarte Alves, candidato a PhD no Instituto Superior Técnico (IST). Ele se baseia na pesquisa iniciada por Pierre Colombo, professor associado do CentraleSupélec, e foi conduzido sob a supervisão de Céline Hudelot, diretora do MICS, e André Martins, professor associado do IST. Os resultados estão detalhados em um artigo publicado no arXiv em 10 de março de 2025: https://arxiv.org/abs/2503.05500

Um novo salto tecnológico na codificação de textos

O EuroBERT se destaca dos codificadores atualmente disponíveis em cinco aspectos principais:

  • Ele é soberano e totalmente de código aberto, incluindo seu código-fonte e os datasets.

  • Ele é compatível com os 8 principais idiomas europeus, bem como com 7 dos idiomas não europeus mais falados.

  • Treinado em 5 trilhões de tokens, o dobro da quantidade de data usada para codificadores padrão ou modelos generativos como o Llama 2 (2 trilhões de tokens), o EuroBERT oferece recursos ideais sem custos adicionais de uso.

  • A família EuroBERT oferece a melhor base para recuperação de informações (RAG), classificação e estimativa de qualidade (resumo, tradução).

  • Ele se destaca em áreas até então pouco exploradas, como processamento matemático data e linguagens de programação.

Ele está disponível em três tamanhos de modelo (210M, 610M e 2.1B), oferecendo um equilíbrio ideal entre velocidade, qualidade e custo, adaptado às necessidades dos usuários corporativos.
Assim, o EuroBERT está transformando os aplicativos de processamento de linguagem natural baseados em representações de frases, como análise de texto, recuperação de informações, classificação e extração de informações.

A força e o valor agregado da pesquisa colaborativa

Assim como os modelos CroissantLLM e EuroLLM publicados no Hugging Face em 2024, esses avanços científicos foram possíveis graças a uma colaboração público-privada estreita e dinâmica, enraizada no ecossistema Paris-Saclay e estendida por toda a Europa. As equipes do MICS, IST, Diabolocom, Artefact e Unbabel trabalharam juntas dentro da estrutura de três projetos de doutorado em andamento, apoiados pelo supercomputador francês Adastra, alimentado por aceleradores AMD Instinct™ e processadores AMD EPYC™.

Reconhecido mundialmente por sua excelência em matemática e ciência da computação, o laboratório MICS do CentraleSupélec lidera vários programas e projetos de pesquisa em parceria com organizações públicas e privadas, expandindo continuamente os limites do artificial intelligence. A Diabolocom, por meio de seu produto de suporte ao relacionamento com o cliente, contribuiu com sua experiência em processamento de idiomas, que foi integrada ao seu produto. A Artefact, líder europeia em IA e consultoria data, forneceu sua experiência intersetorial e visão estratégica em vários aplicativos empresariais. Por fim, a Unbabel, líder em tecnologia de tradução automática, contribuiu com sua experiência em IA multilíngue.

“Um mês após a AI Action Summit em Paris, estamos particularmente empolgados em anunciar o lançamento do EuroBERT. Essa família de modelos de codificadores para idiomas europeus é a solução mais abrangente e de alto desempenho para tarefas em nível de documento. No atual cenário de IA, os modelos de codificadores são frequentemente ignorados, apesar de sua importância nos aplicativos de PNL. Por exemplo, o BERT, introduzido em 2017, ainda recebe quase cinco milhões de downloads por mês na Hugging Face, superando o LLaMA e outros modelos semelhantes”.”
enfatiza Céline Hudelot, professora do CentraleSupélec e diretora do laboratório MICS.

Com o estabelecimento de seu centro de pesquisa, Diabolocom Research, no início de 2025, a Diabolocom está se equipando com novos recursos para fornecer soluções concretas e eficientes para as demandas do mercado por sistemas de IA confiáveis, soberanos e de alto desempenho.

“A colaboração multidisciplinar e as contribuições para projetos de código aberto estão no centro de nossa estratégia para permanecer na vanguarda da inovação. O EuroBERT, nossa mais recente iniciativa de pesquisa, aborda várias limitações dos codificadores existentes. Esse modelo aprimorará a funcionalidade de várias soluções, incluindo recuperação automática de informações, classificação automatizada e sistemas baseados em agentes”.”
explica Frédéric Durand, presidente e fundador da Diabolocom.

A Artefact, por sua vez, tem se envolvido ativamente na pesquisa de IA por meio de seu centro de pesquisa, inaugurado há um ano.

“Nosso objetivo é desenvolver e distribuir modelos úteis e práticos para aplicações comerciais concretas. Como resultado, todas as nossas publicações e algoritmos são de código aberto. Os avanços na codificação de documentos representados pelo EuroBERT abrem novas possibilidades para melhorar a eficiência e a relevância da classificação de documentos, da recuperação inteligente de informações e do reconhecimento de entidades nomeadas (NER). Ao se concentrar na análise de documentos existentes em vez de gerar novos documentos, o EuroBERT atende a uma necessidade crítica e recorrente de análise de texto comercial”.”
Emmanuel Malherbe, Diretor do Artefact Research Center.

Quanto à Unbabel, a primeira plataforma de operações linguísticas com tecnologia de IA:

“O EuroBERT representa um grande avanço na IA multilíngue. Há muito tempo, os modelos codificadores têm sido um herói desconhecido da PNL, fornecendo a compreensão linguística profunda necessária para aplicativos de IA de alto desempenho. Ao contrário das abordagens puramente generativas, os codificadores são excelentes na captura de significado e contexto - elementos-chave para sistemas multilíngues precisos e escaláveis. Na Unbabel, temos grande experiência não apenas no desenvolvimento de soluções de LLM generativas, como nossos modelos Tower de ponta, mas também na criação de soluções baseadas em codificadores de referência, como o Comet e o CometKiwi. O lançamento do EuroBERT chega em um momento crucial, abordando a falta de codificadores multilíngues treinados com os mais recentes avanços em modelos generativos. Isso marca mais um passo na construção da infraestrutura essencial para fortalecer a soberania de IA da Europa, e temos orgulho de contribuir com projetos como o EuroBERT e o EuroLLM, que aprimoram as capacidades europeias e garantem nosso futuro digital compartilhado”.”
acrescenta Nuno Miguel Guerreiro, pesquisador da Unbabel.

Esse projeto também foi possível graças aos aceleradores AMD Instinct™ MI300A, integrados ao Adastra, o supercomputador francês altamente eficiente.

“O desenvolvimento do EuroBERT representa um marco significativo em nossos esforços para aprimorar os recursos de processamento de linguagem natural para idiomas europeus, impulsionados por pesquisas na França. Aproveitando as GPUs MI300 da AMD e sua arquitetura de memória unificada, alcançamos um desempenho e uma eficiência sem precedentes. Esse projeto ressalta o compromisso da AMD com a inovação e a excelência em artificial intelligence”.”
diz Julien Ruiz, Diretor da AMD França.

O desenvolvimento do EuroBERT também envolveu contribuições de equipes da Université Grenoble Alpes, CNRS, LISN, Illuin Technology, IRT Saint-Exupéry e CINES.

Sobre CentralSupélec - www.centralesupelec.fr

A CentraleSupélec é uma instituição pública dedicada à educação científica, cultural e profissional, fundada em janeiro de 2015 por meio da fusão da École Centrale Paris e da Supélec. Atualmente, a CentraleSupélec opera em quatro campi na França (Paris-Saclay, Metz, Rennes e Reims) e tem mais de 5.400 alunos, incluindo 3.800 alunos de engenharia. A instituição abriga 18 laboratórios ou equipes de pesquisa. Com uma forte presença internacional - 25% de seus alunos e quase um quarto de seu corpo docente vêm do exterior - o CentreSupélec estabeleceu mais de 170 parcerias com as principais instituições do mundo. Uma escola líder em ensino superior e pesquisa, serve como referência nas áreas de engenharia e ciências de sistemas. Em 2020, o CentraleSupélec co-fundou a Université Paris-Saclay e atualmente lidera o Groupe des Écoles Centrale (CentraleSupélec, Centrale Lyon, Centrale Lille, Centrale Nantes e Centrale Méditerranée), que supervisiona os campi internacionais em Pequim (China), Hyderabad (Índia) e Casablanca (Marrocos).

Sobre o Laboratório MICS
Fundado no início dos anos 2000, o laboratório MICS reúne pesquisas em Matemática e Ciência da Computação no CentraleSupélec. Posicionado no centro das tecnologias digitais, sua pesquisa se concentra na modelagem, simulação, análise e otimização de sistemas complexos, abrangendo aplicações industriais, ciências da vida, mercados financeiros e redes de informação. O laboratório MICS está estruturado em seis equipes de pesquisa, buscando objetivos científicos compartilhados, juntamente com um foco interdisciplinar em Inteligência Artificial.

Contatos para a imprensa:
Claire Flin: clairefline@gmail.com – +33 6 95 41 95 90
Marion Molina: marionmolinapro@gmail.com – +33 6 29 11 52 08

Sobre Diabolocom - www.diabolocom.com

Há mais de 20 anos, a Diabolocom vem revolucionando as interações com os clientes com sua solução CCaaS (Contact Center as a Service) baseada em cloud, aprimorada por IA generativa proprietária. A automação inteligente, a acessibilidade aprimorada e a análise confiável fornecem às equipes de atendimento ao cliente e de vendas as ferramentas necessárias para o sucesso. Projetada especificamente para o relacionamento com o cliente, a IA da Diabolocom apresenta transcrição em tempo real, análise de satisfação e recomendações de ações, minimizando as tarefas repetitivas. O resultado: interações hiperpersonalizadas, maior fidelidade do cliente e vendas otimizadas. Ao oferecer visibilidade total de cada interação com o cliente, a solução da Diabolocom ajuda empresas líderes como Carrefour, Air Liquide, Meilleurtaux e Leboncoin a transformar suas relações com os clientes em mais de 60 países.

Com presença na Europa, América do Norte, Brasil e Oriente Médio, a Diabolocom apoia as organizações no aprimoramento das relações com os clientes em escala global.

Em 2025, a Diabolocom lançou seu centro de pesquisa, o Diabolocom Research, dedicado a enfrentar os desafios de projetar sistemas de contact center responsáveis, confiáveis, éticos e de alto desempenho. O laboratório se concentra no desenvolvimento de tecnologias de ponta em processamento de fala, processamento de linguagem natural, IA de conversação e otimização de algoritmos de hardware.

Contatos para a imprensa:
Nada Nachit: nada.nachit@diabolocom.com

Sobre Artefact :

A Artefact é uma empresa francesa de consultoria e engenharia especializada em data e IA, e líder europeia no setor. Com sede em Paris, atualmente estamos presentes em 23 países em todos os continentes, com uma equipe de 1.500 funcionários.

Nossa missão é ajudar as empresas a desbloquear todo o potencial da IA e da data, desenvolvendo soluções personalizadas que abordem seus desafios específicos do setor. Como pioneiros nesse campo, combinamos conhecimento tecnológico com excelência operacional, colaborando com os principais participantes do mercado. Da estratégia às operações, oferecemos uma abordagem e soluções de ponta a ponta: data estratégia, data qualidade e governança, data platforms, AI Factory, data-driven experiência do cliente e ROI de marketing

Nossos clientes abrangem todos os principais setores econômicos - indústria, varejo, luxo, bens de consumo, saúde, finanças e outros - incluindo grandes corporações internacionais.
Além da consultoria, estamos ativamente comprometidos com a promoção de uma IA ética e acessível. Lançamos a “School of Data” para facilitar a transição de carreira para funções tecnológicas e estabelecemos Artefact AI Research Centers em Paris e Xangai.

Obtenha mais informações em Artefact 

Contatos para a imprensa:
Astrid Calippe: astrid.calippe@artefact.com