
Le week-end dernier, Mark Gurman et Drake Bennett de Bloomberg ont publié une analyse complète des problèmes rencontrés par Apple Intelligence. L’article détaille des erreurs prolongées et une mauvaise interprétation du potentiel de l’IA par les plus hauts responsables de l’entreprise. Mais surtout, il explique comment Apple cherche à rattraper son retard, notamment grâce à l’utilisation de données synthétiques.
Comme l’indiquent Gurman et Bennett :
« Tout cela a conduit les chercheurs d’Apple à se tourner davantage vers les jeux de données qu’ils obtiennent via des tierces parties, ainsi que vers les données dites synthétiques – des données artificielles créées spécialement pour entraîner l’IA. »
Si cette idée vous semble étrange, sachez qu’Apple n’est pas le premier à utiliser des données générées par ordinateur pour former ses modèles IA. OpenAI, Microsoft, et Meta ont tous employé cette technique avec succès. Le rapport de Bloomberg met ce procédé en lumière pour les fans d’Apple.
En résumé, les données synthétiques permettent aux ingénieurs de créer des jeux de données gigantesques, étiquetés parfaitement, et sécurisés quant à la vie privée. Elles couvrent des cas limites rares et permettent de progresser plus rapidement qu’avec des échantillons du monde réel.
Selon OpenAI, les données synthétiques permettent de réduire les « hallucinations » (erreurs factuelles) dans leurs modèles en utilisant un processus en plusieurs étapes qui génère des comparaisons utiles pour l’entraînement des IA. Microsoft, quant à lui, a formé son modèle Phi-4 à 55% sur des données synthétiques, ce qui a permis au modèle de surpasser les modèles plus grands dans des tâches mathématiques.
Qu’est-ce que les données synthétiques ?
Les données synthétiques sont générées par un algorithme ou de manière manuelle plutôt que collectées à partir de données réelles. Parce qu’elles sont créées en interne, les ingénieurs peuvent :
- Garantir une précision parfaite des étiquettes ;
- S’adapter à des scénarios rares ;
- Éviter d’inclure des éléments personnellement identifiables ou sous droits d’auteur.
Le blog de recherche d’Apple donne un exemple concret de l’utilisation de données synthétiques : des échantillons de courriels sont fabriqués sur l’appareil, comparés à des messages réels localement, et un signal anonymisé est renvoyé sur la pertinence des échantillons synthétiques.
Les géants de l’IA se tournent vers les données synthétiques parce qu’ils ont déjà épuisé les données disponibles dans le monde. Pour Apple, c’est une aubaine : alors que le marché empiétait sur les droits d’auteur, la génération de données synthétiques prenait son envol, et Apple a enfin rejoint la danse.
Bien sûr, il y a des compromis. La collecte de données synthétiques propres et humaines est coûteuse et plus lente que les alternatives « traditionnelles ». Il existe aussi le risque que les modèles reproduisent verbatim des contenus protégés provenant des données d’entraînement « organiques ». Néanmoins, l’investissement d’Apple dans les données synthétiques pour Apple Intelligence est une bonne nouvelle, et pourrait permettre à Apple de prendre un nouvel élan dans l’IA.