App Store : Apple a testé des labels de pertinence générés par IA pour améliorer la recherche

Apple a mené un test A/B à grande échelle pour mesurer l’impact de labels de pertinence générés par IA sur le classement des résultats de recherche de l’App Store et, in fine, sur les téléchargements.

L’expérience est détaillée dans l’étude Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments, publiée sur le site Apple Machine Learning Research : machinelearning.apple.com/research/augmenting-app.

Pourquoi Apple a entraîné un modèle sur la “pertinence”

Dans l’App Store, la pertinence reste un élément déterminant pour faire remonter les bonnes apps face à une requête. Les chercheurs distinguent deux grandes familles de signaux :

Pertinence comportementale : elle reflète les interactions, comme le fait de toucher un résultat ou de télécharger une app.
Pertinence textuelle : elle mesure à quel point les métadonnées d’une app (nom, description, mots-clés) correspondent sémantiquement à la requête.

Selon l’étude, les données liées à la pertinence comportementale sont abondantes, car elles se mesurent facilement. À l’inverse, les labels de pertinence textuelle produits par des évaluateurs humains sont plus rares, coûteux à obtenir et difficiles à mettre à l’échelle, ce qui limite leur poids dans l’entraînement de classeurs multi-objectifs.

Un LLM affiné, puis des millions de labels générés

Pour contourner cette contrainte, Apple a affiné un modèle de langage de 3 milliards de paramètres à partir de jugements humains existants, afin de lui apprendre à attribuer des labels de pertinence en fonction d’une requête et des métadonnées d’une app.

Le modèle a ensuite servi à générer des millions de nouveaux labels. Le système de ranking de l’App Store a été réentraîné en combinant les données d’origine et ces annotations produites par le LLM.

Résultat : un gain mesuré sur les téléchargements

Après une évaluation hors ligne, Apple a lancé un test A/B mondial sur du trafic réel. L’étude rapporte une hausse statistiquement significative de +0,24 % du taux de conversion, défini comme la proportion de sessions de recherche aboutissant à au moins un téléchargement. Le gain a été observé dans 89 % des vitrines (storefronts).

En pratique, les sessions exposées au classement “augmenté” par LLM ont conduit légèrement plus souvent à au moins un téléchargement que celles servies par le modèle de ranking traditionnel.

App Store : Apple a testé des labels de pertinence générés par IA pour améliorer la recherche

Pourquoi Apple a entraîné un modèle sur la “pertinence”

Un LLM affiné, puis des millions de labels générés

Résultat : un gain mesuré sur les téléchargements

Smartphones avec satellite : l’iPhone domine encore, l’adoption attend des usages plus larges

iOS 27 : l’appareil photo intégrerait un mode Siri dopé à la Visual Intelligence, selon Bloomberg

iPhone : John Ternus face au choc des coûts mémoire et au casse-tête industriel, selon le Financial Times

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés

App Store : Apple a testé des labels de pertinence générés par IA pour améliorer la recherche

Pourquoi Apple a entraîné un modèle sur la “pertinence”

Un LLM affiné, puis des millions de labels générés

Résultat : un gain mesuré sur les téléchargements

Related Posts

Smartphones avec satellite : l’iPhone domine encore, l’adoption attend des usages plus larges

iOS 27 : l’appareil photo intégrerait un mode Siri dopé à la Visual Intelligence, selon Bloomberg

iPhone : John Ternus face au choc des coûts mémoire et au casse-tête industriel, selon le Financial Times

Comment écouter la traduction d’une conversation grâce aux AirPods avec iOS 26.2

Apple Watch Ultra 4 : quatre pistes crédibles pour la cuvée de septembre

WhatsApp et WhatsApp Business sont à jour pour ajouter quelques nouveautés