
Apple a mené un test A/B à grande échelle pour mesurer l’impact de labels de pertinence générés par IA sur le classement des résultats de recherche de l’App Store et, in fine, sur les téléchargements.
L’expérience est détaillée dans l’étude Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments, publiée sur le site Apple Machine Learning Research : machinelearning.apple.com/research/augmenting-app.
Pourquoi Apple a entraîné un modèle sur la “pertinence”
Dans l’App Store, la pertinence reste un élément déterminant pour faire remonter les bonnes apps face à une requête. Les chercheurs distinguent deux grandes familles de signaux :
- Pertinence comportementale : elle reflète les interactions, comme le fait de toucher un résultat ou de télécharger une app.
- Pertinence textuelle : elle mesure à quel point les métadonnées d’une app (nom, description, mots-clés) correspondent sémantiquement à la requête.
Selon l’étude, les données liées à la pertinence comportementale sont abondantes, car elles se mesurent facilement. À l’inverse, les labels de pertinence textuelle produits par des évaluateurs humains sont plus rares, coûteux à obtenir et difficiles à mettre à l’échelle, ce qui limite leur poids dans l’entraînement de classeurs multi-objectifs.
Un LLM affiné, puis des millions de labels générés
Pour contourner cette contrainte, Apple a affiné un modèle de langage de 3 milliards de paramètres à partir de jugements humains existants, afin de lui apprendre à attribuer des labels de pertinence en fonction d’une requête et des métadonnées d’une app.
Le modèle a ensuite servi à générer des millions de nouveaux labels. Le système de ranking de l’App Store a été réentraîné en combinant les données d’origine et ces annotations produites par le LLM.
Résultat : un gain mesuré sur les téléchargements
Après une évaluation hors ligne, Apple a lancé un test A/B mondial sur du trafic réel. L’étude rapporte une hausse statistiquement significative de +0,24 % du taux de conversion, défini comme la proportion de sessions de recherche aboutissant à au moins un téléchargement. Le gain a été observé dans 89 % des vitrines (storefronts).
En pratique, les sessions exposées au classement “augmenté” par LLM ont conduit légèrement plus souvent à au moins un téléchargement que celles servies par le modèle de ranking traditionnel.