
La dernière évolution de ChatGPT fusionne voix et texte au sein d’une même conversation, rendant l’échange plus fluide. Cette approche esquisse clairement le type d’expérience promis pour le futur Siri, adossé à Apple Intelligence.
Ce qui change dans ChatGPT
- Utilisation de la voix directement dans le fil de discussion, sans changer de mode.
- Affichage en temps réel des réponses, avec visuels possibles (images, cartes).
- Allers-retours naturels entre voix et texte selon le besoin, sans friction.
Historiquement, la séparation stricte entre mode vocal et mode texte créait des ruptures d’usage, notamment pour générer une image après une interaction à la voix. L’unification corrige ce point.
L’ajout de la voix a aussi rapproché le chatbot d’un comportement perçu comme plus « humain ». Plusieurs observateurs, dont Dave Winer (scripting.com) et John Gruber (Daring Fireball), estiment toutefois que l’imitation humaine ne devrait pas être un objectif en soi.
Pourquoi c’est important pour Siri
Pour tenir ses promesses, le nouveau Siri devra offrir la même continuité : une instruction vocale, une réponse parlée, mais aussi la capacité de manipuler texte et images dans la même interface. Apple Intelligence a déjà commencé à enrichir l’écosystème avec des fonctions textuelles, comme le résumé d’e‑mails dans Mail.
Au-delà de la présentation des informations, l’assistant devra agir en agent intelligent avec les apps installées. Exemple typique : « Réserver le premier vol demain matin de Heathrow vers Las Vegas », en s’appuyant sur les applications de voyage présentes sur l’iPhone.
Défis d’intégration
Unifier voix, texte et visuels s’avère délicat. Les premiers retours montrent une expérience globalement plus cohérente, mais avec des ratés ponctuels, comme l’annonce d’une carte qui ne s’affiche pas réellement. Le niveau de fiabilité sera déterminant pour un assistant intégré au système.
Confidentialité et partenariats
Apple prévoit déjà un recours optionnel à ChatGPT lorsque Siri ne peut répondre, avec des garde‑fous de confidentialité et sans utilisation des interactions pour l’entraînement du modèle par défaut. Selon les besoins, l’assistant pourrait s’appuyer sur des modèles tiers, tout en conservant le contrôle de la protection des données au niveau du système.
Dans l’immédiat, l’intégration voix/texte de ChatGPT offre un aperçu concret du type d’expérience attendue : parler, voir la réponse se construire, et afficher cartes ou images au sein d’un même échange.