希波利特·吉塞罗-布赫莱夫、里卡多·雷伊、埃马纽埃尔·马勒贝、塞琳·于德洛、皮埃尔·科隆博、努诺·M·格雷罗
Artefact Center、Unbabel、Equall、MICS、CentraleSupélec、巴黎-萨克雷大学、电信研究所、里斯本理工学院及里斯本大学(里斯本ELLIS分部)
我们很高兴与大家分享我校博士生希波利特·吉塞罗-布克莱夫(Hippolyte Gisserot-Boukhlef)的最新研究论文,该论文已被选为2024年11月举行的第九届机器翻译会议(WMT24)的重点论文。
摘要
本文探讨了偏好优化技术(Preference Optimization)的有效性,特别是将其与监督式微调(Supervised Fine-Tuning)进行对比。虽然基于偏好数据进行优化是机器翻译领域的一种常见做法——通常会利用GPT-4等外部模型的高质量输出——但这种方法的更广泛影响尚未被完全理解。有趣的是,我们的研究结果表明,将模型本身用作自教师(self-teacher)不仅能达到相似的翻译质量,还能消除依赖外部系统所带来的复杂性和限制。

博客





