Novel Abstract Screening Algorithm Using Delphi-Inspired Large Language Model Consensus for Systematic Reviews in Psychiatry: Nouvel algorithme de sélection des résumés utilisant un consensus issu d'un grand modèle de langage inspiré de la méthode Delphi pour les revues systématiques en psychiatrie.
Contexte : Les revues systématiques en psychiatrie nécessitent souvent une évaluation manuelle de nombreux résumés, un processus chronophage. L'objectif de cette étude était de proposer un algorithme innovant basé sur des grands modèles de langage (LLM) et inspiré de la méthode Delphi pour automatiser cette sélection. Objectif : Développer un workflow itératif utilisant un consensus de cinq LLM pour classer les résumés, optimisant ainsi l'efficacité des revues systématiques. Méthode : Après définition manuelle des critères d'éligibilité, un ensemble de cinq LLM a analysé des lots de résumés via un processus Delphi. Les étiquettes générées ont entraîné un modèle de régression logistique pour hiérarchiser les résumés restants. Cette approche a été testée sur trois jeux de données de revues systématiques publiées. Résultats : Sur un jeu de données sur les biomarqueurs de l'autisme, le workflow a identifié 97 % des résumés pertinents (précision 54,2 %), avec un gain de 38,1 % de temps de travail à 95 % de rappel. Les performances ont surpassé les méthodes non basées sur LLM (rappel ≤ 91 %) et offert un équilibre optimal par rapport aux modèles LLM uniques. Les résultats ont également été robustes sur deux autres jeux de données à faible prévalence (troubles de l'attention et trouble de stress post-traumatique). Intérêt clinique : Ce workflow automatisé réduit significativement le temps de travail tout en maintenant une haute précision, facilitant ainsi la réalisation de revues systématiques en psychiatrie. Limites : L'approche dépend des LLM disponibles et nécessite une validation sur des jeux de données plus diversifiés. De plus, l'interprétation des résultats reste limitée par la nature des modèles d'apprentissage automatique.
Utilisation de LLM et de la méthode Delphi pour automatiser la sélection des résumés Performance élevée en termes de rappel (jusqu'à 100 %) et gain de temps (jusqu'à 38,1 %) Avantage par rapport aux méthodes non LLM et aux modèles LLM uniques Applicabilité potentielle à d'autres domaines de la santé mentale
Réduction du temps de travail pour les équipes réalisant des revues systématiques Amélioration de la reproductibilité et de l'efficacité des processus de sélection Possibilité d'extension à d'autres disciplines médicales
Dépendance aux performances des LLM et à la qualité des données d'entraînement Nécessité de vérification manuelle pour les cas marginaux Absence de données sur l'impact à long terme sur la qualité des revues systématiques
Modéré