Artificial intelligence and NLP: the EuroBERT encoder suite reaches a new milestone

París, 10 de marzo de 2025

Entrenado con 5.000 billones de tokens, este conjunto ofrece modelos soberanos y de código abierto que ofrecen el mejor rendimiento en la representación de textos para las lenguas europeas, así como para tareas relacionadas con las matemáticas y la codificación.

Comunicado de prensa

Comunicado de Prensa

La colaboración entre el laboratorio MICS de CentraleSupélec, Diabolocom, Artefact y Unbabel, apoyada por la experiencia tecnológica de AMD y CINES, ha dado como resultado el lanzamiento del modelo de representación de texto multilingüe más avanzado. Este modelo sirve de base fundamental para la recuperación de información (RAG), la clasificación y la estimación de la calidad (resumen, traducción).

Este tipo de modelos son esenciales en el procesamiento del lenguaje natural (PLN) y se encuentran entre los más descargados en Hugging Face desde hace muchos años. Su capacidad para captar con precisión el significado y el contexto de las frases, ofreciendo una comprensión lingüística refinada y profunda, es crucial para el desarrollo de aplicaciones artificial intelligence avanzadas. El nuevo modelo EuroBERT está disponible desde el 10 de marzo de 2025, bajo licencia Apache 2.0 en la página web Plataforma Cara de Abrazo.

El proyecto de investigación fue dirigido por Nicolas Boizard, doctorando Cifre en Diabolocom, con importantes contribuciones de Hippolyte Gisserot-Boukhlef, doctorando Cifre en Artefact, y Duarte Alves, doctorando en el Instituto Superior Técnico (IST). Se basa en la investigación iniciada por Pierre Colombo, profesor asociado de CentraleSupélec, y se llevó a cabo bajo la supervisión de Céline Hudelot, directora del MICS, y André Martins, profesor asociado del IST. Los resultados se detallan en un artículo publicado en arXiv el 10 de marzo de 2025: https://arxiv.org/abs/2503.05500

Un nuevo salto tecnológico en la codificación de textos

EuroBERT se distingue de los codificadores disponibles en la actualidad en cinco aspectos fundamentales:

Es soberano y totalmente de código abierto, incluyendo tanto su código fuente como los datasets.
Es compatible con 8 de las principales lenguas europeas, así como con 7 de las lenguas no europeas más habladas.
Entrenado con 5 billones de tokens, el doble de la cantidad de data utilizada para codificadores estándar o modelos generativos como Llama 2 (2 billones de tokens), EuroBERT ofrece capacidades óptimas sin costes de uso adicionales.
La familia EuroBERT proporciona la mejor base para la recuperación de información (RAG), la clasificación y la estimación de la calidad (resumen, traducción).
Destaca en áreas hasta ahora poco exploradas como el procesamiento matemático data y los lenguajes de programación.

Está disponible en tres tamaños de modelo (210M, 610M y 2.1B), que ofrecen un equilibrio óptimo entre velocidad, calidad y coste, adaptado a las necesidades de los usuarios empresariales.
EuroBERT está transformando así las aplicaciones de procesamiento del lenguaje natural basadas en representaciones de frases, como el análisis de textos, la recuperación de información, la clasificación y la extracción de información.

La fuerza y el valor añadido de la investigación en colaboración

Al igual que los modelos CroissantLLM y EuroLLM publicados en Hugging Face en 2024, estos avances científicos han sido posibles gracias a una estrecha y dinámica colaboración público-privada arraigada en el ecosistema París-Saclay y extendida por toda Europa. Los equipos de MICS, IST, Diabolocom, Artefact y Unbabel trabajaron juntos en el marco de tres proyectos de doctorado en curso, apoyados por el superordenador francés Adastra, alimentado por aceleradores AMD Instinct™ y procesadores AMD EPYC™.

Reconocido en todo el mundo por su excelencia en matemáticas e informática, el laboratorio MICS de CentraleSupélec dirige múltiples programas y proyectos de investigación en colaboración con organizaciones privadas y públicas, ampliando continuamente los límites de la artificial intelligence. Diabolocom, a través de su producto de apoyo a las relaciones con los clientes, ha aportado su experiencia en el tratamiento del lenguaje, que se ha integrado en su producto. Artefact, líder europeo en IA y consultoría data, aportó su experiencia intersectorial y su visión estratégica en numerosas aplicaciones empresariales. Por último, Unbabel, líder tecnológico en traducción automática, aportó su experiencia en IA multilingüe.

“Un mes después de la Cumbre AI Action de París, estamos especialmente entusiasmados de anunciar el lanzamiento de EuroBERT. Esta familia de modelos codificadores para las lenguas europeas es la solución más completa y de mayor rendimiento para las tareas a nivel documental. En el panorama actual de la IA, los modelos codificadores suelen pasarse por alto a pesar de su importancia en las aplicaciones de PNL. Por ejemplo, BERT -introducido en 2017- sigue recibiendo casi cinco millones de descargas al mes en Hugging Face, superando a LLaMA y a otros modelos similares”.”

hace hincapié en Céline Hudelot, profesora de CentraleSupélec y directora del laboratorio MICS.

Con la creación de su centro de investigación, Diabolocom Research, a principios de 2025, Diabolocom se está dotando de nuevos recursos para ofrecer soluciones concretas y eficaces a las demandas del mercado de sistemas de IA fiables, soberanos y de alto rendimiento.

“La colaboración multidisciplinar y las contribuciones a proyectos de código abierto son el núcleo de nuestra estrategia para mantenernos a la vanguardia de la innovación. EuroBERT, nuestra última iniciativa de investigación, aborda varias limitaciones de los codificadores existentes. Este modelo mejorará la funcionalidad de múltiples soluciones, como la recuperación automática de información, la clasificación automatizada y los sistemas basados en agentes”.”

explica Frédéric Durand, Presidente y Fundador de Diabolocom.

Artefact, por su parte, se ha dedicado activamente a la investigación de la IA a través de su centro de investigación, inaugurado hace un año.

“Nuestro objetivo es desarrollar y distribuir modelos útiles y prácticos para aplicaciones empresariales concretas. Por ello, todas nuestras publicaciones y algoritmos son de código abierto. Los avances en la codificación de documentos que representa EuroBERT abren nuevas posibilidades para mejorar la eficacia y relevancia de la clasificación de documentos, la recuperación inteligente de información y el reconocimiento de entidades con nombre (NER). Al centrarse en el análisis de los documentos existentes en lugar de en la generación de documentos nuevos, EuroBERT responde a una necesidad crítica y recurrente del análisis de textos empresariales”.”

Emmanuel Malherbe, Director del Artefact Research Center.

En cuanto a Unbabel, la primera plataforma de operaciones lingüísticas impulsada por IA:

“EuroBERT representa un gran avance en la IA multilingüe. Los modelos codificadores han sido durante mucho tiempo un héroe olvidado de la PNL, ya que proporcionan la comprensión lingüística profunda necesaria para las aplicaciones de IA de alto rendimiento. A diferencia de los enfoques puramente generativos, los codificadores destacan a la hora de captar el significado y el contexto, elementos clave para lograr sistemas multilingües precisos y escalables. En Unbabel, tenemos una gran experiencia no sólo en el desarrollo de soluciones LLM generativas, como nuestros vanguardistas modelos Tower, sino también en la creación de soluciones de referencia basadas en codificadores como Comet y CometKiwi. El lanzamiento de EuroBERT llega en un momento crucial, ya que aborda la falta de codificadores multilingües entrenados con los últimos avances en modelos generativos. Esto supone un paso más hacia la construcción de la infraestructura esencial para reforzar la soberanía de la IA en Europa, y estamos orgullosos de contribuir a través de proyectos como EuroBERT y EuroLLM, que mejoran las capacidades europeas y aseguran nuestro futuro digital compartido”.”

añade Nuno Miguel Guerreiro, investigador de Unbabel.

Este proyecto también fue posible gracias a los aceleradores AMD Instinct™ MI300A, integrados en Adastra, el superordenador francés de alta eficiencia.

“El desarrollo de EuroBERT marca un hito importante en nuestros esfuerzos por mejorar la capacidad de procesamiento del lenguaje natural para las lenguas europeas, impulsados por la investigación en Francia. Aprovechando las GPU MI300 de AMD y su arquitectura de memoria unificada, hemos logrado un rendimiento y una eficiencia sin precedentes. Este proyecto subraya el compromiso de AMD con la innovación y la excelencia en artificial intelligence”.”

dice Julien Ruiz, director de AMD Francia.

En el desarrollo de EuroBERT también han participado equipos de la Universidad de Grenoble Alpes, el CNRS, el LISN, Illuin Technology, el IRT Saint-Exupéry y el CINES.

Acerca de CentraleSupélec - www.centralesupelec.fr

CentraleSupélec es una institución pública dedicada a la educación científica, cultural y profesional, fundada en enero de 2015 mediante la fusión de École Centrale Paris y Supélec. En la actualidad, CentraleSupélec opera en cuatro campus en Francia (París-Saclay, Metz, Rennes y Reims) y cuenta con más de 5.400 estudiantes, incluidos 3.800 estudiantes de ingeniería. La institución alberga 18 laboratorios o equipos de investigación. Con una fuerte presencia internacional-25% de sus estudiantes y casi una cuarta parte de su profesorado proceden del extranjero-CentraleSupélec ha establecido más de 170 asociaciones con instituciones de primer orden de todo el mundo. Escuela líder en enseñanza superior e investigación, sirve de referencia en los campos de la ingeniería y las ciencias de sistemas. En 2020, CentraleSupélec cofundó la Université Paris-Saclay y actualmente dirige el Groupe des Écoles Centrale (CentraleSupélec, Centrale Lyon, Centrale Lille, Centrale Nantes y Centrale Méditerranée), que supervisa los campus internacionales de Pekín (China), Hyderabad (India) y Casablanca (Marruecos).

Acerca del laboratorio MICS
Fundado a principios de la década de 2000, el laboratorio MICS reúne la investigación en Matemáticas e Informática de CentraleSupélec. Situado en el núcleo de las tecnologías digitales, su investigación se centra en la modelización, simulación, análisis y optimización de sistemas complejos, abarcando aplicaciones industriales, ciencias de la vida, mercados financieros y redes de información. El laboratorio MICS está estructurado en seis equipos de investigación, que persiguen objetivos científicos comunes, junto con un enfoque transversal en Inteligencia Artificial.

Contactos de prensa:
Claire Flin: clairefline@gmail.com – +33 6 95 41 95 90
Marion Molina: marionmolinapro@gmail.com – +33 6 29 11 52 08

Acerca de Diabolocom - www.diabolocom.com

Durante más de 20 años, Diabolocom ha revolucionado las interacciones con los clientes con su solución CCaaS (Contact Center as a Service) basada en cloud, mejorada con IA generativa propia. La automatización inteligente, la accesibilidad mejorada y los análisis fiables proporcionan a los equipos de atención al cliente y ventas las herramientas que necesitan para tener éxito. Diseñada específicamente para las relaciones con los clientes, la IA de Diabolocom ofrece transcripción en tiempo real, análisis de satisfacción y recomendaciones de actuación, al tiempo que minimiza las tareas repetitivas. El resultado: interacciones hiperpersonalizadas, mayor fidelidad de los clientes y ventas optimizadas. Al ofrecer una visibilidad total de cada interacción con el cliente, la solución de Diabolocom ayuda a empresas líderes como Carrefour, Air Liquide, Meilleurtaux y Leboncoin a transformar sus relaciones con los clientes en más de 60 países.

Con presencia en Europa, Norteamérica, Brasil y Oriente Medio, Diabolocom ayuda a las organizaciones a mejorar las relaciones con sus clientes a escala mundial.

En 2025, Diabolocom lanzó su centro de investigación, Diabolocom Research, dedicado a abordar los retos que plantea el diseño de sistemas de centros de contacto responsables, fiables, éticos y de alto rendimiento. El laboratorio se centra en el desarrollo de tecnologías punteras en procesamiento del habla, procesamiento del lenguaje natural, IA conversacional y optimización de algoritmos de hardware.

Contactos de prensa:
Nada Nachit: nada.nachit@diabolocom.com

Acerca de Artefact :

Artefact es una empresa francesa de consultoría e ingeniería especializada en data e IA, y líder europea en este campo. Con sede en París, estamos presentes en 23 países de todos los continentes y contamos con un equipo de 1.500 empleados.

Nuestra misión es ayudar a las empresas a liberar todo el potencial de la IA y la data desarrollando soluciones a medida que aborden sus retos industriales específicos. Como pioneros en este campo, combinamos la experiencia tecnológica con la excelencia operativa, colaborando con los principales actores del mercado. Desde la estrategia hasta las operaciones, ofrecemos un enfoque y soluciones integrales: data estrategia, data calidad y gobernanza, data platforms, AI Factory, data-driven experiencia del cliente y marketing ROI

Nuestros clientes abarcan todos los sectores económicos clave -industria, comercio minorista, lujo, bienes de consumo, sanidad, finanzas, etc.-, incluidas las grandes empresas internacionales.
Más allá de la consultoría, estamos activamente comprometidos con la promoción de una IA ética y accesible. Lanzamos la “Escuela de Data” para facilitar las transiciones profesionales hacia funciones tecnológicas y establecimos Artefact AI Research Center en París y Shanghái.

Más información en Artefact

Contactos de prensa:
Astrid Calippe: astrid.calippe@artefact.com

Contáctenos

Inteligencia artificial y PNL: el conjunto de codificadores EuroBERT alcanza un nuevo hito

Un nuevo salto tecnológico en la codificación de textos

La fuerza y el valor añadido de la investigación en colaboración