巴黎,2025 年 3 月 10 日

该套件以 5,000 亿个词块为基础进行训练,提供主权开源模型,为欧洲语言以及数学和编码相关任务提供最佳文本表示性能。.

在 AMD 和 CINES 的技术支持下,CentraleSupélec 的 MICS 实验室、Diabolocom、Artefact 和 Unbabel 合作推出了最先进的多语言文本表示模型。该模型是信息检索(RAG)、分类和质量评估(摘要、翻译)的基本构件。.

这类模型在自然语言处理(NLP)中至关重要,多年来一直是 Hugging Face 上下载量最高的模型之一。它们能够准确捕捉句子的含义和上下文,提供精细和深入的语言理解,这对于开发先进的 artificial intelligence 应用程序至关重要。新的 EuroBERT 模型自 2025 年 3 月 10 日起在 Apache 2.0 许可下可在以下网站获取 抱脸平台。.

该研究项目由 Diabolocom 的 Cifre 博士候选人 Nicolas Boizard 领导,Artefact 的 Cifre 博士候选人 Hippolyte Gisserot-Boukhlef 和 Instituto Superior Técnico (IST) 的博士候选人 Duarte Alves 也做出了重要贡献。这项研究是在多指标类集调查中心主任 Céline Hudelot 和高等理工学院副教授 André Martins 的指导下进行的。相关成果详见 2025 年 3 月 10 日发表在 arXiv 上的论文: https://arxiv.org/abs/2503.05500

文本编码技术的新飞跃

EuroBERT 在五个关键方面与现有编码器不同:

  • 它拥有主权并完全开源,包括源代码和 datasets。.

  • 它支持 8 种主要欧洲语言和 7 种使用最广泛的非欧洲语言。.

  • EuroBERT 在 5 万亿个代币上进行了训练,是标准编码器或生成模型(如 Llama 2,2 万亿个代币)所用 data 的两倍,因此可以在不增加使用成本的情况下提供最佳功能。.

  • EuroBERT 系列为信息检索(RAG)、分类和质量评估(摘要、翻译)提供了最佳基础。.

  • 它在数学 data 处理和编程语言等以前未充分开发的领域表现出色。.

它有三种型号(210M、610M 和 2.1B),在速度、质量和成本之间实现了最佳平衡,可满足企业用户的需求。.
因此,EuroBERT 正在改变基于句子表示的自然语言处理应用,如文本分析、信息检索、分类和信息提取。.

合作研究的优势和附加值

与2024年在 "Hugging Face "网站上发布的CroissantLLM和EuroLLM模型一样,这些科学进步也是通过植根于巴黎-萨克雷生态系统并延伸至整个欧洲的密切而活跃的公私合作而取得的。来自MICS、IST、Diabolocom、Artefact和Unbabel的团队在法国超级计算机Adastra(由AMD Instinct™加速器和AMD EPYC™处理器支持)的支持下,在三个正在进行的博士项目框架内开展合作。.

CentraleSupélec 的 MICS 实验室因其在数学和计算机科学领域的卓越成就而享誉全球,该实验室与私营和公共组织合作开展多项研究计划和项目,不断推动 artificial intelligence 的发展。Diabolocom 公司通过其客户关系支持产品,贡献了其在语言处理方面的专业知识,并将这些知识整合到其产品中。Artefact 是欧洲人工智能和 data 咨询领域的领军企业,为众多企业应用提供了跨领域的专业知识和战略眼光。最后,机器翻译领域的技术领导者 Unbabel 贡献了其在多语言人工智能方面的专业知识。.

“在巴黎举行的人工智能行动峰会一个月后,我们特别兴奋地宣布 EuroBERT 正式发布。这个针对欧洲语言的编码器模型系列是针对文档级任务的最全面、最高效的解决方案。在当今的人工智能领域,编码器模型尽管在 NLP 应用中非常重要,但却经常被忽视。例如,2017 年推出的 BERT 每月在 Hugging Face 上的下载量仍接近 500 万次,超过了 LLaMA 和其他类似模型”。”
强调 Céline Hudelot,CentraleSupélec 教授,多指标类集调查实验室主任。.

随着 2025 年初研究中心 Diabolocom Research 的成立,Diabolocom 正在配备新的资源,以提供具体高效的解决方案,满足市场对可靠、主权和高性能人工智能系统的需求。.

“多学科合作和对开源项目的贡献是我们保持创新领先地位的战略核心。EuroBERT是我们最新的研究计划,它解决了现有编码器的几个局限性。这一模型将增强多种解决方案的功能,包括自动信息检索、自动分类和基于代理的系统。”
解释 Frédéric Durand,Diabolocom 公司总裁兼创始人.

Artefact 则通过其一年前成立的研究中心,积极参与人工智能研究。.

“我们的目标是为具体的商业应用开发和发布有用、实用的模型。因此,我们所有的出版物和算法都是开源的。以 EuroBERT 为代表的文档编码技术的进步为提高文档分类、智能信息检索和命名实体识别(NER)的效率和相关性提供了新的可能性。通过专注于分析现有文档而不是生成新文档,EuroBERT 解决了商业文本分析的关键和经常性需求”。”
Emmanuel Malherbe,Artefact Research Center 主任.

至于 Unbabel,它是首个人工智能驱动的语言运营平台:

“EuroBERT代表了多语言人工智能领域的重大突破。长期以来,编码器模型一直是 NLP 领域的无名英雄,为高性能人工智能应用提供了必要的深度语言理解。与纯粹的生成方法不同,编码器擅长捕捉意义和上下文--准确和可扩展的多语言系统的关键要素。在 Unbabel,我们不仅在开发生成式 LLM 解决方案(如我们最先进的 Tower 模型)方面拥有丰富的专业知识,而且还在创建基于编码器的参考解决方案(如 Comet 和 CometKiwi)方面拥有丰富的专业知识。EuroBERT 的推出正值关键时刻,它解决了缺乏经过最新生成模型训练的多语言编码器的问题。这标志着我们在建设加强欧洲人工智能主权的重要基础设施方面又迈出了一步,我们很荣幸能通过EuroBERT和EuroLLM等项目作出贡献,这些项目增强了欧洲的能力,确保了我们共同的数字未来。”
添加 Nuno Miguel Guerreiro,Unbabel 公司研究员。.

这个项目之所以能够完成,还要归功于集成在法国高效超级计算机 Adastra 中的 AMD Instinct™ MI300A 加速器。.

“EuroBERT的开发标志着我们在法国研究的推动下,为提高欧洲语言自然语言处理能力所做努力的一个重要里程碑。利用 AMD 的 MI300 GPU 及其统一内存架构,我们实现了前所未有的性能和效率。这个项目彰显了 AMD 在 artificial intelligence 领域的创新和卓越承诺。”
AMD 法国公司总监朱利安-鲁伊斯(Julien Ruiz)。.

格勒诺布尔阿尔卑斯大学、法国国家科学研究中心、LISN、Illuin Technology、IRT Saint-Exupéry 和 CINES 的团队也为 EuroBERT 的开发做出了贡献。.

关于 苏佩莱尔中心 - www.centralesupelec.fr

巴黎高等中央理工学院(CentraleSupélec)是一所致力于科学、文化和职业教育的公立机构,于 2015 年 1 月由巴黎高等中央理工学院和巴黎高等研究院(Supélec)合并而成。如今,CentraleSupélec 在法国有四个校区(巴黎-萨克雷、梅斯、雷恩和兰斯),拥有 5400 多名学生,其中包括 3800 名工程专业学生。学校拥有 18 个研究实验室或团队。凭借强大的国际影响力--25% 的学生和近四分之一的教师来自国外--CentraleSupélec 已与全球顶级院校建立了 170 多个合作伙伴关系。作为高等教育和研究领域的领先学校,它是工程学和系统科学领域的标杆。2020 年,CentraleSupélec 共同创办了巴黎-萨克雷大学,目前领导着中央大学集团(CentraleSupélec、Centrale Lyon、Centrale Lille、Centrale Nantes 和 Centrale Méditerranée),管理着位于中国北京、印度海得拉巴和摩洛哥卡萨布兰卡的国际校区。.

关于多指标类集调查实验室
MICS 实验室成立于 2000 年代初,汇集了苏黎世中央理工学院的数学和计算机科学研究力量。该实验室位于数字技术的核心,其研究重点是复杂系统的建模、模拟、分析和优化,涵盖工业应用、生命科学、金融市场和信息网络。MICS 实验室由六个研究小组组成,追求共同的科学目标,并以人工智能为跨学科重点。.

新闻联系人:
克莱尔·弗林:clairefline@gmail.com – +33 6 95 41 95 90
玛丽昂·莫利纳:marionmolinapro@gmail.com – +33 6 29 11 52 08

关于 Diabolocom - www.diabolocom.com

20 多年来,Diabolocom 一直在利用其基于 cloud 的 CCaaS(呼叫中心即服务)解决方案彻底改变客户互动,并通过专有的生成式人工智能加以强化。智能自动化、更高的可及性和可靠的分析为客户服务和销售团队提供了成功所需的工具。Diabolocom 的人工智能专为客户关系设计,具有实时转录、满意度分析和行动建议等功能,同时最大限度地减少了重复性工作。其结果是:超个性化的互动、更强的客户忠诚度和优化的销售。Diabolocom 的解决方案能够全面了解每一次客户互动,帮助家乐福、液化空气集团、Meilleurtaux 和 Leboncoin 等 60 多个国家的领先企业转变客户关系。.

Diabolocom 的业务遍及欧洲、北美、巴西和中东,为企业在全球范围内加强客户关系提供支持。.

2025 年,Diabolocom 成立了研究中心 Diabolocom Research,致力于应对设计负责任、可靠、道德和高性能联络中心系统的挑战。该实验室致力于开发语音处理、自然语言处理、对话式人工智能和硬件算法优化方面的尖端技术。.

新闻联系人:
娜达·纳奇特:nada.nachit@diabolocom.com

关于 Artefact :

Artefact 是法国一家专门从事 data 和人工智能的咨询和工程公司,也是该领域的欧洲领军企业。公司总部位于巴黎,目前业务遍及各大洲的 23 个国家,拥有 1,500 名员工。.

我们的使命是帮助企业充分释放人工智能和 data 的潜能,为他们量身定制解决方案,解决他们面临的具体行业挑战。作为该领域的先驱,我们与主要市场参与者合作,将专业技术与卓越运营相结合。从战略到运营,我们提供端到端的方法和解决方案:data 战略、data 质量和管理、data platforms、人工智能工厂、data-driven 客户体验和营销投资回报率

我们的客户遍及工业、零售、奢侈品、消费品、医疗保健、金融等所有主要经济领域,包括大型跨国公司。.
除咨询外,我们还积极致力于促进人工智能的道德性和可及性。我们推出了 “Data 学校”,以促进向技术岗位的职业过渡,并在巴黎和上海设立了 Artefact 人工智能 Research Center。.

更多信息,请访问 Artefact 

新闻联系人:
阿斯特里德·卡利佩:astrid.calippe@artefact.com