12 juin 2026TDAHAnglaisabstract onlySource tier 1PubMed — neurosciences cognitives developpementales

Comment les grands modèles de langage répondent-ils aux questions liées au TDAH ? Une étude comparative de ChatGPT, Gemini et DeepSeek.How do large language models answer ADHD-related questions? A comparative study of ChatGPT, Gemini, and DeepSeek.

ÉlevéNiveau de preuveSource tier 1Fiabilité sourceDOIRéférence disponible

À retenir

ChatGPT a atteint la précision la plus élevée (91 %) sur les questions TDAH, suivi de Gemini (89 %) et DeepSeek (87 %).
La reproductibilité était la plus élevée pour ChatGPT (89 %), devant Gemini (86 %) et DeepSeek (84 %).
ChatGPT a surpassé les autres modèles pour les questions liées au traitement et aux résultats à long terme.

Lecture clinique

Étude comparative systématique de trois LLMs sur des questions TDAH, avec évaluation par experts, pertinente pour la pratique clinique et l'information patient.

L'étude n'a inclus que 22 questions issues de sources numériques publiques, ce qui peut ne pas refléter l'ensemble des préoccupations des patients. L'évaluation a été réalisée par seulement deux spécialistes, ce qui peut introduire un biais. La conception transversale ne permet pas d'évaluer l'évolution des réponses des LLM dans le temps. Les modèles examinés ne représentent pas l'ensemble des LLM disponibles.

TDAHtdahintelligence artificielleinformation patientprécision diagnostiquecomparaison de modèles

Résumé IA

Cette étude compare la précision, la reproductibilité, la qualité, l'utilité et la fiabilité des réponses de ChatGPT (GPT-4o), Gemini et DeepSeek R1 à 22 questions fréquemment posées sur le TDAH, réparties en quatre domaines (connaissances de base, diagnostic, traitement, pronostic). Deux spécialistes en psychiatrie de l'enfant et de l'adolescent ont évalué les réponses. Les trois modèles ont montré une précision élevée (91%, 89%, 87%), avec des différences selon les domaines : ChatGPT a excellé sur le traitement et le pronostic, tandis que Gemini et DeepSeek étaient meilleurs sur les connaissances de base et le diagnostic. ChatGPT a obtenu les meilleurs scores globaux de qualité, d'utilité et de fiabilité. Les résultats suggèrent que les LLM peuvent être des sources d'information complémentaires pour les patients, mais ne remplacent pas un avis médical professionnel.

Points clés

ChatGPT a atteint la précision la plus élevée (91 %) sur les questions TDAH, suivi de Gemini (89 %) et DeepSeek (87 %). La reproductibilité était la plus élevée pour ChatGPT (89 %), devant Gemini (86 %) et DeepSeek (84 %). ChatGPT a surpassé les autres modèles pour les questions liées au traitement et aux résultats à long terme. Gemini et DeepSeek ont obtenu de meilleures performances sur les connaissances de base et le diagnostic. Des différences significatives existent entre les modèles en termes de qualité, utilité et fiabilité des réponses.

Implications cliniques

Les LLM peuvent fournir des informations précises sur le TDAH, mais leurs réponses doivent être interprétées avec prudence et ne doivent pas remplacer une évaluation clinique professionnelle. Les patients et les aidants peuvent utiliser ces modèles comme sources d'information complémentaires, en étant conscients des variations de qualité entre les modèles. Les cliniciens doivent être informés des forces et faiblesses des LLM pour guider les patients vers des ressources fiables.

Niveau de preuve

Élevé

X / Twitter Facebook LinkedIn Email