
Interrogez n’importe quel locuteur non natif d’anglais et il vous dira probablement que les modèles de langage avancé, ou LLM, ont tendance à mieux comprendre la langue de Shakespeare que la leur. Parfois, la différence est subtile, parfois elle ne l’est pas. Parfois, cela peut même être dangereux, comme le montre une étude de Carnegie Mellon réalisée en 2023, qui a démontré que les entrées non anglaises peuvent plus facilement contourner les filtres de sécurité.
Apple a récemment coécrit une étude proposant une nouvelle méthode pouvant en partie réduire cet écart. Comme l’explique Apple :
Les modèles de langage avancé actuels sont principalement conçus avec l’anglais comme langue principale, et même les rares qui sont multilingues ont tendance à montrer un fort biais centré sur l’anglais. Tout comme les locuteurs qui peuvent produire des expressions maladroites lorsqu’ils apprennent une deuxième langue, les LLM génèrent souvent des sorties non naturelles en langues autres que l’anglais, reflétant des schémas centrés sur l’anglais à la fois dans le vocabulaire et la grammaire.
En d’autres termes, même lorsque ces modèles produisent du chinois ou du français, ils « pensent » encore en anglais. Résultat : les réponses non anglaises suivent souvent les schémas grammaticaux et de vocabulaire de l’anglais.
Pour tester cette théorie, les chercheurs d’Apple, avec ceux d’Inria Paris, de l’École Polytechnique et de l’Université Sapienza de Rome, ont introduit deux nouvelles métriques :
- Naturelle lexicale : est-ce que le modèle utilise le vocabulaire comme le ferait un locuteur natif ?
- Naturelle syntaxique : structure-t-il les phrases d’une manière qui correspond à la grammaire native ?
Ils ont comparé les résultats des modèles aux articles de Wikipedia écrits par des locuteurs natifs en chinois, en français et en anglais. Les résultats ont confirmé le biais. Même le modèle chinois Qwen a sous-performé dans toutes les langues, y compris le chinois. Le modèle Llama 3.1 de Meta était le plus naturel dans l’ensemble, mais restait loin derrière le niveau humain.
La solution proposée par Apple
Pour réduire cet écart, Apple a entraîné un modèle pour préférer les réponses qui sonnent naturellement plutôt que celles aux tournures maladroites, en utilisant une méthode astucieuse : au lieu de collecter manuellement des exemples peu naturels, ils les ont générés automatiquement grâce à la rétro-traduction.
Une réponse chinoise écrite par un humain était traduite en anglais, puis de nouveau en chinois, ce qui introduisait des schémas subtils et non naturels connus sous le nom de « translationese ». Ces résultats modifiés ont servi d’exemples négatifs, tandis que les originaux étaient utilisés comme réponses préférées.
En entraînant le modèle à préférer la version plus naturelle, Apple a pu améliorer de manière significative le choix du vocabulaire et la grammaire, sans détériorer la performance générale dans les repères standards.