19 septembre 2025
313-314

Détection des données manquantes et aberrantes dans les bases de données d'anesthésie : approche par machine learning non supervisé

Position du problème et objectif(s) de l’étude

Les systèmes de gestion de l’information en anesthésie permettent d’enregistrer de manière structurée les données des patients. Leur réutilisation facilite à la fois la relecture des dossiers anesthésiques et leur intégration dans des entrepôts de données de santé. Toutefois, la qualité des données extraites de ces systèmes peut être variable, soulevant la question de la sécurité de leur utilisation et de la fiabilité des bases de données ainsi constituées.  (1)

Matériel et méthodes

Nous avons mené une étude multicentrique portant sur trois établissements. Chaque centre a procédé à l’extraction de ses propres données, couvrant la période du 1er janvier 2023 au 31 décembre 2024. Chaque centre a obtenu une autorisation de son comité d’éthique et de la recherche.  Les patients inclus étaient majeurs et avaient bénéficié d’au moins un passage au bloc opératoire. Les logiciels d’anesthésie différaient selon les centres : Centricity High Acuity Anesthesia (GE Healthcare) et Diane Anesthésie (Bow Médical). L’objectif principal de cette étude était d’identifier la nature des données manquantes et aberrantes. Une fois les extractions réalisées, un script commun de gestion des données a été élaboré, incluant la génération de représentations graphiques et la définition concertée de plages de vraisemblance. Par la suite, des algorithmes de machine learning non supervisé ont été utilisés pour détecter les valeurs aberrantes, en particulier le Density-Based Spatial Clustering of Applications with Noise (DBSCAN).

Résultats & Discussion

Nous avons ciblé les variables de poids et de taille des patients. Les visualisations graphiques ont permis d’identifier des erreurs de saisies et des inversions de valeurs (poids/ taille) dans les trois centres. Ces erreurs ont également été détectées par l’algorithme DBSCAN. Des algorithmes de détection d’outliers ont permis de définir des bornes limites de plausibilité, ensuite comparées aux seuils fixés par trois cliniciens. Les bornes issues de l’analyse algorithmique n’étaient pas significativement différentes selon les centres que ce soit pour les inversions ou les erreurs de saisie.

Conclusion

La constitution d’entrepôts de données via les logiciels d’anesthésie nécessite une qualité optimale des informations enregistrées. (2) Cette étude montre que l’utilisation de méthodes de détection non supervisées des valeurs aberrantes est applicable dans des contextes hétérogènes et constitue un levier prometteur pour fiabiliser la sécurité d’utilisation et la réutilisation des données en anesthésie-réanimation.

Auteurs

Robin STROUK (1) , Marc FISCHLER (2), Jean-Louis BOURGAIN (3), Bernard TRILLAT (2) - (1)Chu Amiens, Amiens, France, (2)Hôpital Foch, Suresnes, France, (3)Institut Gustave Roussy, Villejuif, France

Orateur(s)

Robin STROUK  (Amiens)