
Une étude récente confirme ce que beaucoup soupçonnaient déjà : les chatbots IA actuels sont loin d’être fiables pour fournir des informations précises. Toutefois, Apple semble avoir fait le meilleur choix en intégrant ChatGPT d’OpenAI aux requêtes avancées de Siri.
Selon une étude citée par la Columbia Journalism Review, les chatbots basés sur de grands modèles linguistiques tels que ChatGPT, Gemini ou Grok ne sont absolument pas dignes de confiance lorsqu’il s’agit de fournir des informations exactes. Deux défauts majeurs sont systématiquement constatés :
- Ils ont régulièrement tort.
- Ils affichent une confiance déconcertante dans leurs affirmations incorrectes.
Une méthodologie simple mais révélatrice
Réalisée par le Tow Center for Digital Journalism, cette enquête a comparé huit chatbots IA qui prétendent s’appuyer sur des recherches en ligne actualisées pour fournir leurs réponses :
- ChatGPT
- Perplexity
- Perplexity Pro
- DeepSeek
- Microsoft Copilot
- Grok-2
- Grok-3
- Gemini
Le test était pourtant simple : après leur avoir proposé une citation tirée d’un article facilement accessible en ligne via une simple recherche Google, les chercheurs ont demandé aux chatbots de trouver l’article et d’indiquer son titre, l’éditeur, la date de publication et un lien direct.
Résultats inquiétants pour la précision des chatbots IA
La majorité des chatbots se sont trompés totalement ou partiellement dans leurs réponses :
- La précision moyenne globale était inférieure à 40 %.
- Perplexity s’en sort mieux, avec une précision de 63 %, tandis que Grok-3 obtient un désastreux 6 %.
L’étude souligne également :
- Des réponses souvent trop sûres d’elles lorsqu’elles sont erronées, notamment chez les versions premium des chatbots.
- Le non-respect fréquent des consignes mentionnées par les sites via leurs fichiers robots.txt.
- La création fictive de liens vers des articles ou la référence à des sources indirectes ou syndiquées.
- L’absence de garantie concernant la précision des citations, même avec des accords de licences avec certains éditeurs.
Apple, un choix pertinent avec ChatGPT
Si Perplexity affiche les meilleurs résultats, il apparaît surtout que l’outil contourne parfois certaines exigences des éditeurs, comme celles de National Geographic, en allant puiser des contenus pourtant interdits d’accès aux robots selon leur fichier robots.txt.
En excluant cette anomalie, ChatGPT s’avère au final être le choix le plus raisonnable parmi les autres options testées par l’étude. Apple semble donc avoir anticipé, avec un certain flair, en sélectionnant ce modèle pour compléter Siri dans ses interactions avancées avec les utilisateurs.
Cela dit, ce constat appuie fortement une règle simple : les chatbots sont parfaits pour trouver de l’inspiration, mais il vaut mieux ne jamais s’appuyer sur eux pour des faits précis.