Comparison of K-Means, HDBSCAN, and Hierarchical Clustering (Gower) Algorithms for Clustering Autism Spectrum Disorder (ASD) Profile Data
Contexte : L'autisme du spectre (ASD) est un trouble neurodéveloppemental caractérisé par une grande hétérogénéité clinique. L'identification de sous-groupes latents via des algorithmes de clustering pourrait améliorer la compréhension des profils ASD et guider des approches personnalisées. Cependant, les méthodes existantes souffrent souvent d'une intégration limitée des variables catégorielles pertinentes. Objectif : Comparer les performances de trois algorithmes de clustering (K-means, HDBSCAN, et clustering hiérarchique basé sur la distance de Gower) pour identifier des sous-groupes dans des données ASD, en intégrant à la fois des variables numériques et catégorielles. Méthode : Une étude quantitative a utilisé un jeu de données validé de 500 dossiers ASD avec 24 caractéristiques (données démographiques, indicateurs de symptômes, et scores d'évaluation développementale). K-means et HDBSCAN ont été appliqués à 8 dimensions numériques, tandis que le clustering hiérarchique a utilisé 18 variables mixtes (numériques-catégorielles) avec la distance de Gower. La qualité des clusters a été évaluée via le score de silhouette, l'indice Calinski-Harabasz et le DBCV. Résultats : K-means a obtenu la meilleure structure de partition globale (score de silhouette = 0,1775 ; indice CH = 59,54), suivi par HDBSCAN, qui a identifié 19,8 % des observations comme bruit (potentiellement des cas atypiques). Le clustering hiérarchique-Gower, bien que moins performant en métriques internes (score de silhouette = 0,0441), a permis d'intégrer des variables catégorielles cliniques, offrant une segmentation contextuelle plus riche. Intérêt clinique : Ces résultats suggèrent que le choix de l'algorithme doit s'aligner sur les objectifs analytiques (ex. : regroupement compact, détection d'anomalies, ou sous-groupes cliniquement interprétables). L'intégration de variables catégorielles via le clustering hiérarchique-Gower pourrait enrichir la compréhension contextuelle des profils ASD. Limites : L'analyse repose sur un jeu de données spécifique (500 cas), limitant la généralisation. De plus, la performance inférieure du clustering hiérarchique-Gower pourrait refléter la complexité des données mixtes, nécessitant des validations supplémentaires.
Comparaison de trois algorithmes de clustering pour l'analyse des données ASD Intégration de variables catégorielles via la distance de Gower K-means comme référence pour les données numériques structurées HDBSCAN utile pour détecter des cas atypiques (bruit) Nécessité d'adapter l'algorithme aux objectifs cliniques
Guidage des choix méthodologiques en fonction des besoins (ex. : détection d'anomalies vs. regroupement interprétable) Amélioration de la segmentation contextuelle via l'intégration de variables catégorielles Potentiel pour identifier des sous-groupes ASD sous-représentés
Étude basée sur un seul jeu de données (500 cas), limitant la généralisation Performance médiocre du clustering hiérarchique-Gower, peut-être due à la complexité des données mixtes Absence d'analyse sur des données longitudinales ou multiculturelles
Modéré