Évaluation des grands modèles de langage pour l'éducation sur le TDAH : Une étude comparative de ChatGPT 5, DeepSeek V3 et Grok 4Evaluating large language models for ADHD education: A comparative study of ChatGPT 5, DeepSeek V3, and Grok 4.
- Les trois modèles sont alignés sur le DSM-5 mais diffèrent en stabilité et emphase.
- DeepSeek V3 a produit les sorties les plus variables, Grok 4 les plus cohérentes, ChatGPT 5 les plus concises.
- Tous les modèles dépassent les niveaux de lisibilité recommandés (FKGL >12, FKRE <40, SMOG >12).
Étude comparative pertinente pour l'utilisation des LLMs en éducation sur le TDAH, mais limitations de lisibilité et de stabilité.
Étude limitée à trois modèles de LLM et à un seul domaine (TDAH). Pas d'évaluation de la compréhension réelle par les utilisateurs cibles. Les résultats de lisibilité sont basés sur des formules standardisées, non sur des tests utilisateurs.
Cette étude compare trois LLMs (ChatGPT 5, DeepSeek V3, Grok 4) pour générer du contenu éducatif sur le TDAH. Bien que tous les modèles soient alignés sur le DSM-5, leurs niveaux de lisibilité dépassent les recommandations pour le grand public (FKGL >12), limitant leur accessibilité pour les éducateurs non spécialistes. DeepSeek V3 produit les sorties les plus variables, Grok 4 les plus cohérentes, et ChatGPT 5 les plus concises. Les résultats suggèrent un potentiel mais nécessitent une calibration linguistique.
Les trois modèles sont alignés sur le DSM-5 mais diffèrent en stabilité et emphase. DeepSeek V3 a produit les sorties les plus variables, Grok 4 les plus cohérentes, ChatGPT 5 les plus concises. Tous les modèles dépassent les niveaux de lisibilité recommandés (FKGL >12, FKRE <40, SMOG >12). Les LLMs montrent un potentiel pour générer du contenu éducatif sur le TDAH, mais leur lisibilité actuelle limite leur utilisation par des éducateurs non spécialistes.
Les cliniciens peuvent utiliser les LLMs comme outils de génération de contenu éducatif, mais doivent adapter les prompts pour améliorer la lisibilité. Les éducateurs non spécialistes doivent être informés des limites de lisibilité des LLMs actuels. Une calibration linguistique et une conception de prompts optimisée sont nécessaires pour une utilisation inclusive.
Modéré