Artificial intelligence and NLP: the EuroBERT encoder suite reaches a new milestone

Paris, 10. März 2025

Diese Suite wurde auf der Grundlage von 5.000 Milliarden Token trainiert und bietet souveräne, quelloffene Modelle, die die beste Textdarstellungsleistung für europäische Sprachen sowie für Aufgaben im Zusammenhang mit Mathematik und Codierung liefern.

Communiqué de presse

Pressemitteilung

Die Zusammenarbeit zwischen dem MICS-Labor von CentraleSupélec, Diabolocom, Artefact und Unbabel, unterstützt durch das technologische Know-how von AMD und CINES, hat zur Veröffentlichung des fortschrittlichsten Modells zur Darstellung mehrsprachiger Texte geführt. Dieses Modell dient als grundlegender Baustein für Information Retrieval (RAG), Klassifizierung und Qualitätsbewertung (Zusammenfassung, Übersetzung).

Diese Art von Modellen ist für die Verarbeitung natürlicher Sprache (NLP) unverzichtbar und gehört seit vielen Jahren zu den am häufigsten heruntergeladenen auf Hugging Face. Ihre Fähigkeit, die Bedeutung und den Kontext von Sätzen genau zu erfassen und ein verfeinertes und tiefgehendes linguistisches Verständnis zu bieten, ist für die Entwicklung fortschrittlicher artificial intelligence-Anwendungen von entscheidender Bedeutung. Das neue EuroBERT-Modell ist ab dem 10. März 2025 unter der Apache 2.0 Lizenz auf der Umarmende Gesichtsplattform.

Das Forschungsprojekt wurde von Nicolas Boizard, einem Cifre-Doktoranden bei Diabolocom, geleitet. Wichtige Beiträge leisteten Hippolyte Gisserot-Boukhlef, ein Cifre-Doktorand bei Artefact, und Duarte Alves, ein Doktorand am Instituto Superior Técnico (IST). Die Studie basiert auf Forschungsarbeiten, die von Pierre Colombo, außerordentlicher Professor am CentraleSupélec, initiiert wurden und unter der Aufsicht von Céline Hudelot, Direktorin des MICS, und André Martins, außerordentlicher Professor am IST, durchgeführt wurden. Die Ergebnisse sind in einem Papier, das am 10. März 2025 auf arXiv veröffentlicht wurde, detailliert beschrieben: https://arxiv.org/abs/2503.05500

Ein neuer Technologiesprung in der Textkodierung

EuroBERT unterscheidet sich in fünf wesentlichen Punkten von den derzeit erhältlichen Encodern:

Es ist souverän und vollständig quelloffen, sowohl was den Quellcode als auch die data-Sets betrifft.
Es unterstützt 8 wichtige europäische Sprachen sowie 7 der am häufigsten gesprochenen außereuropäischen Sprachen.
EuroBERT wurde auf 5 Billionen Token trainiert, doppelt so viel wie data, das für Standard-Encoder oder generative Modelle wie Llama 2 (2 Billionen Token) verwendet wird, und bietet somit optimale Fähigkeiten ohne zusätzliche Nutzungskosten.
Die EuroBERT-Familie bietet die beste Grundlage für Information Retrieval (RAG), Klassifizierung und Qualitätseinschätzung (Zusammenfassung, Übersetzung).
Es zeichnet sich durch bisher wenig erforschte Bereiche wie die mathematische data-Verarbeitung und Programmiersprachen aus.

Er ist in drei Modellgrößen (210M, 610M und 2.1B) erhältlich und bietet ein optimales Gleichgewicht zwischen Geschwindigkeit, Qualität und Kosten, das auf die Bedürfnisse von Unternehmensanwendern zugeschnitten ist.
EuroBERT transformiert damit Anwendungen zur Verarbeitung natürlicher Sprache, die auf Satzrepräsentationen basieren, wie Textanalyse, Informationsabfrage, Klassifizierung und Informationsextraktion.

Die Stärke und der Mehrwert der kollaborativen Forschung

Wie bei den CroissantLLM- und EuroLLM-Modellen, die 2024 auf Hugging Face veröffentlicht wurden, wurden diese wissenschaftlichen Fortschritte durch eine enge und dynamische öffentlich-private Zusammenarbeit ermöglicht, die im Paris-Saclay-Ökosystem verwurzelt ist und sich über ganz Europa erstreckt. Die Teams von MICS, IST, Diabolocom, Artefact und Unbabel arbeiteten im Rahmen von drei laufenden PhD-Projekten zusammen, die vom französischen Supercomputer Adastra unterstützt wurden, der von AMD Instinct™ Accelerators und AMD EPYC™ Prozessoren angetrieben wird.

Das MICS-Labor von CentraleSupélec, das weltweit für seine herausragenden Leistungen in den Bereichen Mathematik und Informatik anerkannt ist, leitet zahlreiche Forschungsprogramme und -projekte in Zusammenarbeit mit privaten und öffentlichen Organisationen und verschiebt dabei ständig die Grenzen von artificial intelligence. Diabolocom hat mit seinem Produkt zur Unterstützung von Kundenbeziehungen sein Fachwissen im Bereich der Sprachverarbeitung eingebracht, das in sein Produkt integriert wurde. Artefact, ein führendes europäisches Unternehmen im Bereich KI und data-Beratung, hat sein sektorübergreifendes Fachwissen und seine strategische Vision für zahlreiche Unternehmensanwendungen zur Verfügung gestellt. Und schließlich hat Unbabel, ein führendes Unternehmen im Bereich der maschinellen Übersetzung, sein Fachwissen im Bereich der mehrsprachigen KI eingebracht.

“Einen Monat nach dem AI Action Summit in Paris freuen wir uns besonders, die Veröffentlichung von EuroBERT bekannt zu geben. Diese Familie von Encoder-Modellen für europäische Sprachen ist die umfassendste und leistungsstärkste Lösung für Aufgaben auf Dokumentenebene. In der heutigen KI-Landschaft werden Encoder-Modelle trotz ihrer Bedeutung für NLP-Anwendungen oft übersehen. BERT zum Beispiel, das 2017 eingeführt wurde, wird immer noch fast fünf Millionen Mal pro Monat auf Hugging Face heruntergeladen und übertrifft damit LLaMA und andere ähnliche Modelle.”

unterstreicht Céline Hudelot, Professorin an der CentraleSupélec und Leiterin des MICS-Labors.

Mit der Gründung des Forschungszentrums Diabolocom Research Anfang 2025 stattet sich Diabolocom mit neuen Ressourcen aus, um konkrete und effiziente Lösungen für die Marktanforderungen an zuverlässige, souveräne und leistungsstarke KI-Systeme zu liefern.

“Multidisziplinäre Zusammenarbeit und Beiträge zu Open-Source-Projekten sind das Herzstück unserer Strategie, um an der Spitze der Innovation zu bleiben. EuroBERT, unsere jüngste Forschungsinitiative, befasst sich mit mehreren Einschränkungen bestehender Kodierer. Dieses Modell wird die Funktionalität mehrerer Lösungen verbessern, einschließlich der automatischen Informationsbeschaffung, der automatischen Klassifizierung und der agentenbasierten Systeme.”

erklärt Frédéric Durand, Präsident und Gründer von Diabolocom.

Artefact seinerseits hat sich über sein vor einem Jahr eröffnetes Forschungszentrum aktiv in der KI-Forschung engagiert.

“Unser Ziel ist es, nützliche, praktische Modelle für konkrete Geschäftsanwendungen zu entwickeln und zu verbreiten. Daher sind alle unsere Veröffentlichungen und Algorithmen Open-Source. Die Fortschritte in der Dokumentenkodierung, für die EuroBERT steht, eröffnen neue Möglichkeiten zur Verbesserung der Effizienz und Relevanz von Dokumentenklassifizierung, intelligentem Information Retrieval und Named Entity Recognition (NER). Da sich EuroBERT auf die Analyse bestehender Dokumente konzentriert, anstatt neue Dokumente zu generieren, erfüllt es einen kritischen und immer wiederkehrenden Bedarf für die Textanalyse in Unternehmen.”

Emmanuel Malherbe, Direktor des Artefact Research Center.

Was Unbabel betrifft, die erste KI-gestützte Plattform für Sprachoperationen:

“EuroBERT stellt einen großen Durchbruch in der mehrsprachigen KI dar. Encoder-Modelle sind seit langem ein unbesungener Held der NLP, denn sie liefern das tiefe linguistische Verständnis, das für leistungsstarke KI-Anwendungen notwendig ist. Im Gegensatz zu rein generativen Ansätzen zeichnen sich Encoder durch die Erfassung von Bedeutung und Kontextelementen aus - Schlüsselelemente für präzise und skalierbare mehrsprachige Systeme. Wir bei Unbabel verfügen nicht nur über eine große Erfahrung in der Entwicklung generativer LLM-Lösungen, wie z.B. unsere innovativen Tower-Modelle, sondern auch in der Entwicklung von Referenzlösungen auf Encoder-Basis wie Comet und CometKiwi. Die Einführung von EuroBERT kommt zu einem entscheidenden Zeitpunkt, da es an mehrsprachigen Encodern mangelt, die mit den neuesten generativen Modellen trainiert wurden. Dies ist ein weiterer Schritt auf dem Weg zum Aufbau der notwendigen Infrastruktur für die Stärkung der KI-Souveränität Europas. Wir sind stolz darauf, mit Projekten wie EuroBERT und EuroLLM einen Beitrag zu leisten, der die europäischen Fähigkeiten verbessert und unsere gemeinsame digitale Zukunft sichert.”

fügt hinzu Nuno Miguel Guerreiro, Forscher bei Unbabel.

Dieses Projekt wurde auch dank der AMD Instinct™ MI300A Beschleuniger möglich, die in Adastra, dem hocheffizienten französischen Supercomputer, integriert sind.

“Die Entwicklung von EuroBERT stellt einen wichtigen Meilenstein in unseren Bemühungen dar, die Fähigkeiten zur Verarbeitung natürlicher Sprache für europäische Sprachen zu verbessern, die von der Forschung in Frankreich vorangetrieben wurden. Durch den Einsatz der MI300 Grafikprozessoren von AMD und ihrer einheitlichen Speicherarchitektur haben wir eine noch nie dagewesene Leistung und Effizienz erreicht. Dieses Projekt unterstreicht das Engagement von AMD für Innovation und Exzellenz im Bereich artificial intelligence.”

sagt Julien Ruiz, Direktor von AMD Frankreich.

An der Entwicklung von EuroBERT waren auch Teams der Université Grenoble Alpes, des CNRS, des LISN, von Illuin Technology, des IRT Saint-Exupéry und des CINES beteiligt.

Über CentraleSupélec - www.centralesupelec.fr

CentraleSupélec ist eine öffentliche Einrichtung, die sich der wissenschaftlichen, kulturellen und beruflichen Bildung widmet und im Januar 2015 durch die Fusion der École Centrale Paris und Supélec gegründet wurde. Heute verfügt die CentraleSupélec über vier Standorte in Frankreich (Paris-Saclay, Metz, Rennes und Reims) und hat mehr als 5.400 Studenten, darunter 3.800 Ingenieurstudenten. Die Einrichtung beherbergt 18 Forschungslabors oder -teams. Mit einer starken internationalen Präsenz - 25% der Studenten und fast ein Viertel der Dozenten kommen aus dem Ausland - hat die CentraleSupélec mehr als 170 Partnerschaften mit Spitzeneinrichtungen auf der ganzen Welt geschlossen. Als führende Schule in der Hochschulbildung und Forschung dient sie als Maßstab in den Bereichen Ingenieur- und Systemwissenschaften. Im Jahr 2020 war die CentraleSupélec Mitbegründerin der Université Paris-Saclay und leitet derzeit die Groupe des Écoles Centrale (CentraleSupélec, Centrale Lyon, Centrale Lille, Centrale Nantes und Centrale Méditerranée), die internationale Campusse in Peking (China), Hyderabad (Indien) und Casablanca (Marokko) betreut.

Über das MICS-Labor
Das MICS-Labor wurde in den frühen 2000er Jahren gegründet und vereint die Forschung in Mathematik und Informatik an der CentraleSupélec. Im Zentrum der digitalen Technologien gelegen, konzentriert sich die Forschung auf die Modellierung, Simulation, Analyse und Optimierung komplexer Systeme, die industrielle Anwendungen, Biowissenschaften, Finanzmärkte und Informationsnetzwerke umfassen. Das MICS-Labor ist in sechs Forschungsteams gegliedert, die gemeinsame wissenschaftliche Ziele verfolgen und einen disziplinübergreifenden Schwerpunkt auf Künstliche Intelligenz legen.

Presse-Kontakte:
Claire Flin: clairefline@gmail.com – +33 6 95 41 95 90
Marion Molina: marionmolinapro@gmail.com – +33 6 29 11 52 08

Über Diabolocom - www.diabolocom.com

Seit mehr als 20 Jahren revolutioniert Diabolocom die Kundeninteraktion mit seiner cloud-basierten CCaaS-Lösung (Contact Center as a Service), die durch eine proprietäre generative KI ergänzt wird. Intelligente Automatisierung, verbesserte Erreichbarkeit und zuverlässige Analysen geben Kundendienst- und Vertriebsteams die Werkzeuge an die Hand, die sie für ihren Erfolg benötigen. Die KI von Diabolocom wurde speziell für Kundenbeziehungen entwickelt und bietet Echtzeit-Transkription, Zufriedenheitsanalyse und Handlungsempfehlungen bei gleichzeitiger Minimierung sich wiederholender Aufgaben. Das Ergebnis: Hyper-personalisierte Interaktionen, stärkere Kundenbindung und optimierte Verkäufe. Durch die vollständige Transparenz jeder Kundeninteraktion hilft die Lösung von Diabolocom führenden Unternehmen wie Carrefour, Air Liquide, Meilleurtaux und Leboncoin, ihre Kundenbeziehungen in über 60 Ländern zu verbessern.

Mit einer Präsenz in Europa, Nordamerika, Brasilien und dem Nahen Osten unterstützt Diabolocom Unternehmen bei der Verbesserung ihrer Kundenbeziehungen auf globaler Ebene.

Im Jahr 2025 gründete Diabolocom sein Forschungszentrum Diabolocom Research, das sich den Herausforderungen bei der Entwicklung verantwortungsvoller, zuverlässiger, ethischer und leistungsstarker Contact Center-Systeme widmet. Das Labor konzentriert sich auf die Entwicklung von Spitzentechnologien in den Bereichen Sprachverarbeitung, natürliche Sprachverarbeitung, KI und Hardware-Algorithmus-Optimierung.

Presse-Kontakte:
Nada Nachit: nada.nachit@diabolocom.com

Über Artefact :

Artefact ist ein französisches Beratungs- und Ingenieurbüro, das auf data und KI spezialisiert ist und zu den europäischen Marktführern in diesem Bereich gehört. Wir haben unseren Hauptsitz in Paris und sind heute in 23 Ländern auf allen Kontinenten mit einem Team von 1.500 Mitarbeitern vertreten.

Unsere Aufgabe ist es, Unternehmen dabei zu helfen, das volle Potenzial von KI und data auszuschöpfen, indem wir maßgeschneiderte Lösungen für ihre spezifischen Branchenherausforderungen entwickeln. Als Pioniere auf diesem Gebiet kombinieren wir technologisches Know-how mit operativer Exzellenz und arbeiten mit großen Marktteilnehmern zusammen. Von der Strategie bis zum Betrieb bieten wir einen End-to-End-Ansatz und Lösungen: data Strategie, data Qualität und Governance, data platforms, AI Factory, data-driven Kundenerfahrung und Marketing-ROI

Unsere Kunden kommen aus allen wichtigen Wirtschaftsbereichen - Industrie, Einzelhandel, Luxusgüter, Konsumgüter, Gesundheitswesen, Finanzen und mehr - einschließlich großer internationaler Unternehmen.
Über die Beratung hinaus engagieren wir uns aktiv für die Förderung ethischer und zugänglicher KI. Wir haben die “School of Data” ins Leben gerufen, um Karrierewege in technische Berufe zu erleichtern, und Artefact AI Research Centers in Paris und Shanghai gegründet.

Weitere Informationen finden Sie unter Artefact

Presse-Kontakte:
Astrid Calippe : astrid.calippe@artefact.com

Kontaktieren Sie uns

Künstliche Intelligenz und NLP: die EuroBERT Encoder Suite erreicht einen neuen Meilenstein

Ein neuer Technologiesprung in der Textkodierung

Die Stärke und der Mehrwert der kollaborativen Forschung