Apple vient de publier un article de recherche, détaillant des méthodes pour améliorer Siri afin de rendre le son de sa voix plus naturel, grâce à l’aide du marchine learning.
Une réponse Siri est un assemblage de parties de textes qui ont été lues et enregistrées en haute qualité. Mais les développeurs font face à un défaut de cette méthode de « collage » de mot : le manque de prosodie. En effet, lorsque l’humain parle il transmet énormément d’information dans la voix. L’intonation, l’accentuation, la modulation de la sonorité d’une phrase dépend directement de son contenu et du contexte.
Les développeurs doivent donc trouver un moyen de rendre la lecture de Siri plus fluide, mais cela demande énormément de ressources qu’un processeur de smartphone ne peut pas supporter.
Vient alors le marching learning. Avec assez de données d’entrainement, cette technique d’apprentissage par la machine permet d’aider le système à sélectionner intelligemment les segments audios qui vont de paire pour créer des réponses sonnant plus naturelles.
Le machine learning améliore la prosodie de Siri
Pour iOS 11, les ingénieurs d’Apple ont travaillé avec une nouvelle actrice de voix qui a enregistré plus de 20 heures de contenu en anglais US et généré entre 1 et 2 millions de segments audio. L’équipe de recherche a rapporté que les sujets évaluateurs ont largement préféré la nouvelle version de Siri.
Vous pouvez écouter (en anglais) l’évolution de la voix de Siri en bas de la page de l’article en question (Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis).
2 commentaires
Perso je préfère la voix de Siri IOS 10 !
Ah, je ne suis pas de ton avis, je trouve la voix dans IOS 11 beaucoup plus naturelle