“偏好对齐”是否总是提升基于大型语言模型的翻译质量的最佳选择？一项实证分析 -Artefact

希波利特·吉塞罗-布赫莱夫、里卡多·雷伊、埃马纽埃尔·马勒贝、塞琳·于德洛、皮埃尔·科隆博、努诺·M·格雷罗

Artefact Center、Unbabel、Equall、MICS、CentraleSupélec、巴黎-萨克雷大学、电信研究所、里斯本理工学院及里斯本大学（里斯本ELLIS分部）

我们很高兴与大家分享我校博士生希波利特·吉塞罗-布克莱夫（Hippolyte Gisserot-Boukhlef）的最新研究论文，该论文已被选为2024年11月举行的第九届机器翻译会议（WMT24）的重点论文。

摘要

本文探讨了偏好优化技术（Preference Optimization）的有效性，特别是将其与监督式微调（Supervised Fine-Tuning）进行对比。虽然基于偏好数据进行优化是机器翻译领域的一种常见做法——通常会利用GPT-4等外部模型的高质量输出——但这种方法的更广泛影响尚未被完全理解。有趣的是，我们的研究结果表明，将模型本身用作自教师（self-teacher）不仅能达到相似的翻译质量，还能消除依赖外部系统所带来的复杂性和限制。

查看幻灯片

联系我们