Parijs, 10 maart 2025
Deze suite is getraind op 5.000 miljard tokens en biedt soevereine, open-source modellen die de beste prestaties leveren op het gebied van tekstrepresentatie voor Europese talen en voor taken met betrekking tot wiskunde en codering.
De samenwerking tussen het MICS-laboratorium van CentraleSupélec, Diabolocom, Artefact en Unbabel, ondersteund door de technologische expertise van AMD en CINES, heeft geresulteerd in de uitgave van het meest geavanceerde model voor meertalige tekstrepresentatie. Dit model dient als fundamentele bouwsteen voor het ophalen van informatie (RAG), classificatie en kwaliteitsschatting (samenvatten, vertalen).
Dit soort modellen zijn essentieel in natuurlijke taalverwerking (NLP) en worden al jaren het meest gedownload op Hugging Face. Hun vermogen om de betekenis en context van zinnen nauwkeurig vast te leggen, met een verfijnd en diepgaand taalkundig begrip, is cruciaal voor de ontwikkeling van geavanceerde artificial intelligence-toepassingen. Het nieuwe EuroBERT-model is vanaf 10 maart 2025 beschikbaar onder de Apache 2.0-licentie op de Knuffelend Gezichtsplatform.
Het onderzoeksproject werd geleid door Nicolas Boizard, een Cifre-promovendus bij Diabolocom, met belangrijke bijdragen van Hippolyte Gisserot-Boukhlef, een Cifre-promovendus bij Artefact, en Duarte Alves, een promovendus bij Instituto Superior Técnico (IST). Het bouwt voort op onderzoek dat is gestart door Pierre Colombo, Associate Professor bij CentraleSupélec, en is uitgevoerd onder toezicht van Céline Hudelot, directeur van MICS, en André Martins, Associate Professor bij IST. De resultaten staan gedetailleerd beschreven in een paper dat op 10 maart 2025 op arXiv is gepubliceerd: https://arxiv.org/abs/2503.05500
Een nieuwe technologische sprong in tekstcodering
EuroBERT onderscheidt zich op vijf belangrijke manieren van de momenteel verkrijgbare encoders:
Hij is verkrijgbaar in drie modellen (210M, 610M en 2.1B) en biedt een optimale balans tussen snelheid, kwaliteit en kosten, afgestemd op de behoeften van zakelijke gebruikers.
EuroBERT transformeert zo toepassingen voor natuurlijke taalverwerking op basis van zinsrepresentaties, zoals tekstanalyse, het ophalen van informatie, classificatie en informatie-extractie.
De kracht en toegevoegde waarde van gezamenlijk onderzoek
Net als bij de CroissantLLM- en EuroLLM-modellen die in 2024 op Hugging Face zijn gepubliceerd, is deze wetenschappelijke vooruitgang mogelijk gemaakt door een nauwe en dynamische publiek-private samenwerking die zijn wortels heeft in het ecosysteem van Parijs-Saclay en zich uitstrekt over heel Europa. De teams van MICS, IST, Diabolocom, Artefact en Unbabel werkten samen in het kader van drie lopende PhD-projecten, ondersteund door de Franse supercomputer Adastra, aangedreven door AMD Instinct™ Accelerators en AMD EPYC™ processors.
Het MICS-laboratorium van de CentraleSupélec, dat wereldwijd erkend wordt voor zijn uitmuntendheid op het gebied van wiskunde en computerwetenschappen, leidt meerdere onderzoeksprogramma's en projecten in samenwerking met particuliere en openbare organisaties en verlegt voortdurend de grenzen van artificial intelligence. Diabolocom heeft via zijn product voor klantenrelatieondersteuning zijn expertise op het gebied van taalverwerking ingebracht, die in zijn product is geïntegreerd. Artefact, een Europese leider op het gebied van AI en data consulting, heeft zijn sectoroverschrijdende expertise en strategische visie op talrijke bedrijfstoepassingen ingebracht. Tot slot heeft Unbabel, een technologieleider op het gebied van automatische vertaling, zijn expertise in meertalige AI ingebracht.
“Een maand na de AI Action Summit in Parijs zijn we bijzonder verheugd om de release van EuroBERT aan te kondigen. Deze familie van encodermodellen voor Europese talen is de meest uitgebreide en hoogwaardige oplossing voor taken op documentniveau. In het huidige AI-landschap worden encodermodellen vaak over het hoofd gezien, ondanks hun belang in NLP-toepassingen. BERT bijvoorbeeld, dat in 2017 werd geïntroduceerd, wordt nog steeds bijna vijf miljoen keer per maand gedownload op Hugging Face, waarmee het LLaMA en andere vergelijkbare modellen overtreft.”benadrukt Céline Hudelot, professor aan de CentraleSupélec en directeur van het MICS-laboratorium.
Met de oprichting van zijn onderzoekscentrum, Diabolocom Research, begin 2025, rust Diabolocom zichzelf uit met nieuwe middelen om concrete en efficiënte oplossingen te bieden voor de marktvraag naar betrouwbare, soevereine en krachtige AI-systemen.
“Multidisciplinaire samenwerking en bijdragen aan open-source projecten vormen de kern van onze strategie om voorop te blijven lopen op het gebied van innovatie. EuroBERT, ons meest recente onderzoeksinitiatief, pakt verschillende beperkingen van bestaande encoders aan. Dit model zal de functionaliteit van meerdere oplossingen verbeteren, waaronder automatische informatieterugwinning, geautomatiseerde classificatie en agentgebaseerde systemen,” aldus EuroBERT.”legt uit Frédéric Durand, voorzitter en oprichter van Diabolocom.
Artefact heeft zich op zijn beurt actief beziggehouden met AI-onderzoek via zijn onderzoekscentrum dat een jaar geleden werd geopend.
“Ons doel is om nuttige, praktische modellen voor concrete zakelijke toepassingen te ontwikkelen en te verspreiden. Daarom zijn al onze publicaties en algoritmen open-source. De vooruitgang op het gebied van documentcodering die EuroBERT vertegenwoordigt, opent nieuwe mogelijkheden voor het verbeteren van de efficiëntie en relevantie van documentclassificatie, intelligente informatieterugwinning en named entity recognition (NER). Door zich te richten op het analyseren van bestaande documenten in plaats van het genereren van nieuwe, voorziet EuroBERT in een kritieke en terugkerende behoefte aan zakelijke tekstanalyse,” aldus EuroBERT.”Emmanuel Malherbe, directeur van de Artefact Research Center.
Wat Unbabel betreft, het eerste AI-gestuurde platform voor taaloperaties:
“EuroBERT betekent een belangrijke doorbraak in meertalige AI. Encodermodellen zijn lange tijd een onbezongen held geweest in NLP, omdat ze zorgen voor het diepe linguïstische begrip dat nodig is voor goed presterende AI-toepassingen. In tegenstelling tot puur generatieve benaderingen, blinken encoders uit in het vastleggen van betekenis en context - belangrijke elementen voor nauwkeurige en schaalbare meertalige systemen. Bij Unbabel hebben we niet alleen veel expertise in het ontwikkelen van generatieve LLM-oplossingen, zoals onze geavanceerde Tower-modellen, maar ook in het creëren van referentie-encodergebaseerde oplossingen zoals Comet en CometKiwi. De lancering van EuroBERT komt op een cruciaal moment, omdat het gebrek aan meertalige encoders die zijn getraind met de nieuwste ontwikkelingen op het gebied van generatieve modellen, wordt aangepakt. Dit is weer een stap in de richting van het opbouwen van de essentiële infrastructuur voor het versterken van de Europese AI-soevereiniteit, en we zijn er trots op dat we een bijdrage kunnen leveren via projecten als EuroBERT en EuroLLM, die de Europese capaciteiten vergroten en onze gezamenlijke digitale toekomst veiligstellen.”voegt toe Nuno Miguel Guerreiro, onderzoeker bij Unbabel.
Dit project werd ook mogelijk gemaakt dankzij AMD Instinct™ MI300A Accelerators, geïntegreerd in Adastra, de zeer efficiënte Franse supercomputer.
“De ontwikkeling van EuroBERT markeert een belangrijke mijlpaal in onze inspanningen om de natuurlijke taalverwerkingsmogelijkheden voor Europese talen te verbeteren, gedreven door onderzoek in Frankrijk. Door gebruik te maken van AMD's MI300 GPU's en hun uniforme geheugenarchitectuur, hebben we ongekende prestaties en efficiëntie bereikt. Dit project onderstreept AMD's toewijding aan innovatie en uitmuntendheid in artificial intelligence.”zegt Julien Ruiz, directeur van AMD Frankrijk.
Bij de ontwikkeling van EuroBERT waren ook bijdragen betrokken van teams van de Université Grenoble Alpes, CNRS, LISN, Illuin Technology, IRT Saint-Exupéry en CINES.
Over CentraleSupélec - www.centralesupelec.fr
CentraleSupélec is een openbare instelling gewijd aan wetenschappelijk, cultureel en beroepsonderwijs, opgericht in januari 2015 door de fusie van École Centrale Paris en Supélec. Vandaag de dag is CentraleSupélec actief op vier campussen in Frankrijk (Paris-Saclay, Metz, Rennes en Reims) en heeft het meer dan 5.400 studenten, waaronder 3.800 ingenieursstudenten. De instelling heeft 18 onderzoekslaboratoria of -teams. Met een sterke internationale aanwezigheid-25% van haar studenten en bijna een kwart van haar docenten komt uit het buitenland-CentraleSupélec heeft meer dan 170 samenwerkingsverbanden met topinstellingen over de hele wereld. Als toonaangevende school op het gebied van hoger onderwijs en onderzoek fungeert zij als benchmark op het gebied van engineering en systeemwetenschappen. In 2020 was CentraleSupélec medeoprichter van de Université Paris-Saclay en leidt momenteel de Groupe des Écoles Centrale (CentraleSupélec, Centrale Lyon, Centrale Lille, Centrale Nantes en Centrale Méditerranée), die toezicht houdt op internationale campussen in Beijing (China), Hyderabad (India) en Casablanca (Marokko).
Over het MICS laboratorium
Het MICS-laboratorium werd opgericht in het begin van de jaren 2000 en bundelt onderzoek in wiskunde en computerwetenschappen aan de CentraleSupélec. Het onderzoek bevindt zich in de kern van digitale technologieën en richt zich op modellering, simulatie, analyse en optimalisatie van complexe systemen, die industriële toepassingen, biowetenschappen, financiële markten en informatienetwerken omvatten. Het MICS-laboratorium is gestructureerd in zes onderzoeksteams die gezamenlijke wetenschappelijke doelstellingen nastreven, samen met een interdisciplinaire focus op kunstmatige intelligentie.
Perscontacten:
Claire Flin: clairefline@gmail.com – +33 6 95 41 95 90
Marion Molina: marionmolinapro@gmail.com - +33 6 29 11 52 08
Over Diabolocom - www.diabolocom.com
Al meer dan 20 jaar zorgt Diabolocom voor een revolutie in klantinteracties met zijn CCaaS-oplossing (Contact Center as a Service) op basis van cloud, verbeterd met eigen generatieve AI. Intelligente automatisering, verbeterde bereikbaarheid en betrouwbare analyses bieden klantenservice- en verkoopteams de hulpmiddelen die ze nodig hebben om succesvol te zijn. De AI van Diabolocom is speciaal ontworpen voor klantrelaties en biedt realtime transcriptie, tevredenheidsanalyse en actieaanbevelingen, terwijl repetitieve taken tot een minimum worden beperkt. Het resultaat: hypergepersonaliseerde interacties, sterkere klantenloyaliteit en geoptimaliseerde verkoop. Door volledig inzicht te bieden in elke klantinteractie helpt de oplossing van Diabolocom toonaangevende bedrijven zoals Carrefour, Air Liquide, Meilleurtaux en Leboncoin bij het transformeren van hun klantrelaties in meer dan 60 landen.
Met vestigingen in Europa, Noord-Amerika, Brazilië en het Midden-Oosten ondersteunt Diabolocom organisaties bij het verbeteren van klantrelaties op wereldwijde schaal.
In 2025 lanceerde Diabolocom zijn onderzoekscentrum Diabolocom Research, dat zich richt op het aanpakken van uitdagingen bij het ontwerpen van verantwoordelijke, betrouwbare, ethische en hoogwaardige contactcentersystemen. Het lab richt zich op de ontwikkeling van geavanceerde technologieën op het gebied van spraakverwerking, verwerking van natuurlijke taal, conversationele AI en optimalisatie van hardware-algoritmen.
Perscontacten:
Nada Nachit: nada.nachit@diabolocom.com
Over Artefact :
Artefact is een Frans advies- en ingenieursbureau gespecialiseerd in data en AI, en een Europese leider op dit gebied. Het hoofdkantoor is gevestigd in Parijs en we zijn nu aanwezig in 23 landen op alle continenten, met een team van 1.500 medewerkers.
Het is onze missie om bedrijven te helpen het volledige potentieel van AI en data te benutten door oplossingen op maat te ontwikkelen voor hun specifieke uitdagingen in de sector. Als pioniers op dit gebied combineren we technologische expertise met operationele uitmuntendheid en werken we samen met grote marktspelers. Van strategie tot uitvoering, wij bieden een end-to-end aanpak en oplossingen: data strategie, data kwaliteit en governance, data platforms, AI Factory, data-driven klantervaring en marketing ROI
Onze klanten strekken zich uit over alle belangrijke economische sectoren - industrie, detailhandel, luxe, consumentengoederen, gezondheidszorg, financiën en meer - inclusief grote internationale bedrijven.
Naast consultancy zetten we ons actief in voor het bevorderen van ethische en toegankelijke AI. We hebben de “School of Data” gelanceerd om carrièreovergangen naar technische functies te vergemakkelijken en hebben Artefact AI Research Center's opgericht in Parijs en Shanghai.
Meer informatie vindt u op Artefact
Perscontacten:
Astrid Calippe: astrid.calippe@artefact.com

NIEUWS





