Artificial intelligence and NLP: the EuroBERT encoder suite reaches a new milestone

Paris, le 10 mars 2025

Entraînée sur 5 000 milliards de tokens, cette suite propose des modèles souverains et libres offrant les meilleures performances en matière de représentation textuelle pour les langues européennes, ainsi que pour les tâches liées aux mathématiques et au codage.

Communiqué de presse

La collaboration entre le laboratoire MICS de CentraleSupélec, Diabolocom, Artefact et Unbabel, soutenue par l'expertise technologique d'AMD et du CINES, a abouti à la publication du modèle de représentation de texte multilingue le plus avancé. Ce modèle sert de brique fondamentale pour la recherche d'information (RAG), la classification et l'estimation de la qualité (résumé, traduction).

Ces types de modèles sont essentiels dans le traitement du langage naturel (NLP) et ont été parmi les plus téléchargés sur Hugging Face depuis de nombreuses années. Leur capacité à capturer avec précision le sens et le contexte des phrases, offrant une compréhension linguistique raffinée et approfondie, est cruciale pour le développement d'applications artificial intelligence avancées. Le nouveau modèle EuroBERT est disponible à partir du 10 mars 2025, sous la licence Apache 2.0, sur le site Plate-forme d'étreinte du visage.

Le projet de recherche a été dirigé par Nicolas Boizard, doctorant Cifre à Diabolocom, avec des contributions majeures d'Hippolyte Gisserot-Boukhlef, doctorant Cifre à Artefact, et de Duarte Alves, doctorant à l'Instituto Superior Técnico (IST). Elle s'appuie sur une recherche initiée par Pierre Colombo, maître de conférences à CentraleSupélec, et a été menée sous la supervision de Céline Hudelot, directrice du MICS, et d'André Martins, maître de conférences à l'IST. Les résultats sont détaillés dans un article publié sur arXiv le 10 mars 2025 : https://arxiv.org/abs/2503.05500

Un nouveau saut technologique dans l'encodage des textes

EuroBERT se distingue des codeurs actuellement disponibles sur cinq points essentiels :

Il est souverain et entièrement libre, y compris son code source et ses datasets.
Il prend en charge 8 grandes langues européennes ainsi que 7 des langues non européennes les plus parlées.
Entraîné sur 5 trillions de tokens, soit deux fois la quantité de data utilisée pour les codeurs standard ou les modèles génératifs tels que Llama 2 (2 trillions de tokens), EuroBERT offre des capacités optimales sans coûts d'utilisation supplémentaires.
La famille EuroBERT constitue la meilleure base pour la recherche d'informations (RAG), la classification et l'estimation de la qualité (résumé, traduction).
Il excelle dans des domaines jusqu'ici peu explorés tels que le traitement mathématique data et les langages de programmation.

Il est disponible en trois tailles (210M, 610M et 2.1B), offrant un équilibre optimal entre vitesse, qualité et coût, adapté aux besoins des utilisateurs professionnels.
EuroBERT transforme ainsi les applications de traitement du langage naturel basées sur des représentations de phrases, telles que l'analyse de texte, la recherche d'informations, la classification et l'extraction d'informations.

La force et la valeur ajoutée de la recherche collaborative

Comme pour les modèles CroissantLLM et EuroLLM publiés sur Hugging Face en 2024, ces avancées scientifiques ont été rendues possibles grâce à une collaboration publique-privée étroite et dynamique, ancrée dans l'écosystème de Paris-Saclay et étendue à toute l'Europe. Les équipes de MICS, IST, Diabolocom, Artefact, et Unbabel ont travaillé ensemble dans le cadre de trois projets de thèse en cours, soutenus par le supercalculateur français Adastra, alimenté par des accélérateurs AMD Instinct™ et des processeurs AMD EPYC™.

Reconnu mondialement pour son excellence en mathématiques et en informatique, le laboratoire MICS de CentraleSupélec mène de multiples programmes et projets de recherche en partenariat avec des organismes privés et publics, repoussant sans cesse les limites de artificial intelligence. Diabolocom, à travers son produit de support à la relation client, a apporté son expertise en traitement du langage, qui a été intégrée dans son produit. Artefact, leader européen de l'IA et du conseil en data, a apporté son expertise transversale et sa vision stratégique sur de nombreuses applications d'entreprise. Enfin, Unbabel, leader technologique de la traduction automatique, a apporté son expertise en IA multilingue.

“Un mois après le sommet AI Action à Paris, nous sommes particulièrement heureux d'annoncer la sortie d'EuroBERT. Cette famille de modèles d'encodage pour les langues européennes est la solution la plus complète et la plus performante pour les tâches au niveau des documents. Dans le paysage actuel de l'IA, les modèles d'encodage sont souvent négligés malgré leur importance dans les applications NLP. Par exemple, BERT, introduit en 2017, est encore téléchargé près de cinq millions de fois par mois sur Hugging Face, dépassant LLaMA et d'autres modèles similaires.”

met l'accent sur Céline Hudelot, professeur à CentraleSupélec et directrice du laboratoire MICS.

Avec la création de son centre de recherche, Diabolocom Research, début 2025, Diabolocom se dote de nouvelles ressources pour apporter des solutions concrètes et efficaces aux demandes du marché en matière de systèmes d'IA fiables, souverains et performants.

“La collaboration multidisciplinaire et les contributions à des projets à code source ouvert sont au cœur de notre stratégie visant à rester à la pointe de l'innovation. EuroBERT, notre dernière initiative de recherche, s'attaque à plusieurs limites des encodeurs existants. Ce modèle améliorera la fonctionnalité de multiples solutions, y compris la recherche automatique d'informations, la classification automatisée et les systèmes à base d'agents”.”

explique Frédéric Durand, président et fondateur de Diabolocom.

Pour sa part, Artefact s'est engagée activement dans la recherche sur l'IA grâce à son centre de recherche, inauguré il y a un an.

“Notre objectif est de développer et de distribuer des modèles utiles et pratiques pour des applications commerciales concrètes. Par conséquent, toutes nos publications et tous nos algorithmes sont libres. Les progrès réalisés par EuroBERT en matière d'encodage de documents ouvrent de nouvelles possibilités pour améliorer l'efficacité et la pertinence de la classification des documents, de la recherche intelligente d'informations et de la reconnaissance des entités nommées (NER). En se concentrant sur l'analyse de documents existants plutôt que sur la création de nouveaux documents, EuroBERT répond à un besoin critique et récurrent dans le domaine de l'analyse de textes commerciaux”

Emmanuel Malherbe, directeur du Artefact Research Center.

Quant à Unbabel, il s'agit de la première plateforme d'opérations linguistiques alimentée par l'IA :

“EuroBERT représente une avancée majeure dans le domaine de l'IA multilingue. Les modèles d'encodage sont depuis longtemps un héros méconnu du NLP, car ils fournissent la compréhension linguistique profonde nécessaire aux applications d'IA les plus performantes. Contrairement aux approches purement génératives, les encodeurs excellent dans la capture du sens et du contexte - des éléments clés pour des systèmes multilingues précis et évolutifs. Chez Unbabel, nous avons une grande expertise non seulement dans le développement de solutions LLM génératives, telles que nos modèles de pointe Tower, mais aussi dans la création de solutions de référence basées sur des encodeurs, telles que Comet et CometKiwi. Le lancement d'EuroBERT intervient à un moment charnière, car il répond au manque d'encodeurs multilingues formés aux dernières avancées en matière de modèles génératifs. Nous sommes fiers de contribuer à des projets tels qu'EuroBERT et EuroLLM, qui renforcent les capacités européennes et garantissent notre avenir numérique commun”.”

ajoute Nuno Miguel Guerreiro, chercheur à Unbabel.

Ce projet a également été rendu possible grâce aux accélérateurs AMD Instinct™ MI300A, intégrés dans Adastra, le supercalculateur français très performant.

“Le développement d'EuroBERT marque une étape importante dans nos efforts pour améliorer les capacités de traitement du langage naturel pour les langues européennes, sous l'impulsion de la recherche en France. Grâce aux GPU MI300 d'AMD et à leur architecture de mémoire unifiée, nous avons atteint des performances et une efficacité sans précédent. Ce projet souligne l'engagement d'AMD en faveur de l'innovation et de l'excellence dans le domaine du artificial intelligence”.”

dit Julien Ruiz, directeur d'AMD France.

Le développement d'EuroBERT a également bénéficié de la contribution d'équipes de l'Université Grenoble Alpes, du CNRS, du LISN, d'Illuin Technology, de l'IRT Saint-Exupéry et du CINES.

A propos de CentraleSupélec - www.centralesupelec.fr

CentraleSupélec est un établissement public à caractère scientifique, culturel et professionnel, né en janvier 2015 de la fusion de l'École Centrale Paris et de Supélec. Aujourd'hui, CentraleSupélec est présente sur quatre campus en France (Paris-Saclay, Metz, Rennes et Reims) et compte plus de 5 400 étudiants, dont 3 800 élèves-ingénieurs. L'établissement héberge 18 laboratoires ou équipes de recherche. Fortement implantée à l'international - 25% de ses étudiants et près d'un quart de son corps professoral viennent de l'étranger - la Centrale Supélec a noué plus de 170 partenariats avec des institutions de premier plan dans le monde entier. Grande école d'enseignement supérieur et de recherche, elle est une référence dans les domaines de l'ingénierie et des sciences des systèmes. En 2020, CentraleSupélec a cofondé l'Université Paris-Saclay et dirige aujourd'hui le Groupe des Écoles Centrale (CentraleSupélec, Centrale Lyon, Centrale Lille, Centrale Nantes et Centrale Méditerranée), qui chapeaute les campus internationaux de Pékin (Chine), Hyderabad (Inde) et Casablanca (Maroc).

À propos du laboratoire MICS
Créé au début des années 2000, le laboratoire MICS regroupe les recherches en mathématiques et en informatique de CentraleSupélec. Au cœur des technologies numériques, ses recherches portent sur la modélisation, la simulation, l'analyse et l'optimisation des systèmes complexes, qu'il s'agisse d'applications industrielles, de sciences de la vie, de marchés financiers ou de réseaux d'information. Le laboratoire MICS est structuré en six équipes de recherche, poursuivant des objectifs scientifiques communs, avec un axe transversal sur l'Intelligence Artificielle.

Contacts presse :
Claire Flin : clairefline@gmail.com – +33 6 95 41 95 90
Marion Molina : marionmolinapro@gmail.com – +33 6 29 11 52 08

A propos de Diabolocom - www.diabolocom.com

Depuis plus de 20 ans, Diabolocom révolutionne les interactions avec les clients grâce à sa solution CCaaS (Contact Center as a Service) basée sur le cloud, améliorée par une IA générative propriétaire. L'automatisation intelligente, l'amélioration de la joignabilité et la fiabilité des analyses fournissent au service client et aux équipes commerciales les outils dont ils ont besoin pour réussir. Conçue spécifiquement pour la relation client, l'IA de Diabolocom permet la transcription en temps réel, l'analyse de la satisfaction et la recommandation d'actions tout en minimisant les tâches répétitives. Le résultat : des interactions hyper-personnalisées, une plus grande fidélité des clients et des ventes optimisées. En offrant une visibilité totale sur chaque interaction client, la solution de Diabolocom aide des entreprises de premier plan telles que Carrefour, Air Liquide, Meilleurtaux et Leboncoin à transformer leur relation client dans plus de 60 pays.

Présent en Europe, en Amérique du Nord, au Brésil et au Moyen-Orient, Diabolocom aide les organisations à améliorer leurs relations avec leurs clients à l'échelle mondiale.

En 2025, Diabolocom a lancé son centre de recherche, Diabolocom Research, dédié à relever les défis de la conception de systèmes de centres de contact responsables, fiables, éthiques et performants. Le laboratoire se concentre sur le développement de technologies de pointe dans le domaine du traitement de la parole, du traitement du langage naturel, de l'IA conversationnelle et de l'optimisation matériel-algorithme.

Contacts presse :
Nada Nachit : nada.nachit@diabolocom.com

A propos de Artefact :

Artefact est une société française de conseil et d'ingénierie spécialisée dans data et l'IA, et un leader européen dans ce domaine. Basé à Paris, nous sommes aujourd'hui présents dans 23 pays sur tous les continents, avec une équipe de 1 500 collaborateurs.

Notre mission est d'aider les entreprises à exploiter tout le potentiel de l'IA et de data en développant des solutions sur mesure qui répondent à leurs défis industriels spécifiques. Pionniers dans ce domaine, nous combinons expertise technologique et excellence opérationnelle, en collaborant avec les principaux acteurs du marché. De la stratégie aux opérations, nous proposons une approche et des solutions de bout en bout : data stratégie, data qualité et gouvernance, data platforms, AI Factory, data-driven expérience client et ROI marketing.

Nos clients couvrent tous les secteurs économiques clés - industrie, commerce de détail, luxe, biens de consommation, soins de santé, finance et autres - y compris les grandes entreprises internationales.
Au-delà du conseil, nous nous engageons activement à promouvoir une IA éthique et accessible. Nous avons lancé l“”École du Data" pour faciliter les transitions de carrière vers des rôles technologiques et établi des Artefact AI Research Center à Paris et à Shanghai.

Pour plus d'informations, consultez le site Artefact

Contacts presse :
Astrid Calippe : astrid.calippe@artefact.com

Contactez-nous

Intelligence artificielle et NLP : la suite d'encodeurs EuroBERT franchit une nouvelle étape

Un nouveau saut technologique dans l'encodage des textes

La force et la valeur ajoutée de la recherche collaborative