Big Data en santé : comment traiter et exploiter les données de santé ?

Nov 8, 2021 | Archi/Big Data

Big Data et santé : quels usages et cas d’application ?

Les données de santé offrent de larges perspectives d’innovation et de progrès pour le secteur. La crise de la COVID-19 a mis en lumière la valeur que recèlent ces données et leur utilité à des fins d’analyse, d’information et de sensibilisation.

Dans le domaine de la santé, les apports de la data sont aujourd’hui incontestables :

  • Pharmacovigilance : optimisation de la surveillance et de la prévention des risques d’effets indésirables,
  • Aide au diagnostic et à la prise de de décision par les professionnels de santé,
  • Détection de parcours atypique pour identifier les cas de maladies rares,
  • Enrichissement de programmes de recherches clinique et épidémiologique,
  • Développement de nouveaux produits et services de santé,
  • Détection de signaux faibles pour prévenir les épidémies,
  • Analyse du parcours de soin pour améliorer la qualité du système de prise en charge, etc.

[Livre Blanc] Mise en oeuvre d'une stratégie de qualité des données

Les progrès technologiques ont fait croître de façon exponentielle le volume de données de santé disponibles en France. Les sources et les types de données restent toutefois très hétérogènes et cloisonnées, complexifiant leur exploitation par les acteurs de la santé.

On dénombre plusieurs sources de données.

La création du Health Data Hub (Plateforme des données de santé) en 2019 par un groupement d’intérêt public a pour objectif de garantir un accès facilité, transparent et sécurisé aux données de santé afin de favoriser les travaux de recherche et la qualité des soins.

Le SNDS (Système National des Données de Santé) chaîne et met à disposition les différentes bases de données de santé publiques afin de faciliter les projets de recherche. On y retrouve par exemple la base de données SNIIRAM qui contient les données médico-administrative de l’Assurance Maladie ou, depuis 2018, les causes médicales de décès.

Il existe une multitude de producteurs de données qui génèrent des jeux de données dans le cadre de leur activité : industriels pharmaceutiques, laboratoires, instituts de recherche, etc.

Les données cliniques collectées par les établissements de santé dans le cadre des prises en charge des patients sont conservées dans les Systèmes d’Information Hospitaliers (SIH). Ces données sont parfois archivées – et non exploitées – depuis plus de 10 ans.

Les bases de données publiques ou en Open Data contiennent des données permettant d’enrichir les traitements analytiques et algorithmiques (publications scientifiques, météo, démographie, brevets, etc).

Les défis technologiques des acteurs de la santé sont donc de taille :

  • Identifier les enjeux en termes d’usage et de confidentialité de la donnée,
  • Maîtriser techniquement la chaîne d’exploitation de la donnée,
  • Appréhender l’écosystème numérique et informationnel. 

Les défis d’exploitation et de traitement des données

Le volume et l’hétérogénéité des sources et formats de données de santé soulèvent de réelles complexités en matière d’intégration, de traitement et d’analyse de la donnée. Les systèmes d’information hospitalier actuels sont généralement composés de silos applicatifs (une dizaine, parfois une centaine de logiciels) ne permettant pas de standardiser et croiser suffisamment les données.

Il est donc préconisé pour les acteurs de santé de commencer par moderniser leur SI en diligentant des cas d’usage simples tels que la mise en place d’un système de pilotage. Les systèmes de pilotage vont pouvoir adresser en priorité les activités financières (gestion du budget, rapports et demandes envers les ARS), de ressources humaines ou de gestion de stocks (médicaments, matériels et consommables médicaux, etc.). Cela avant même de se projeter dans des cas d’usage complexes d’IA ou de partage de données avec des partenaires externes.

La mise en œuvre de ces premiers cas d’application permet de traiter au fur et à mesure les problématiques de collecte, de transformation, de standardisation, d’architecture et de sécurisation des données.

Le sujet de qualité des données constitue également un défi majeur. Avec des millions de données créées chaque jour, les problématiques de doublons, de mise à jour, de disponibilité des données sont fréquents. Garantir la fiabilité des données dans leur exploitation implique la mise en place de chantiers de data management (gouvernance, rôles, cartographie, référentiels, processus…). Il est indispensable d’instaurer des règles, des rôles et des processus itératifs de gestion de la donnée afin d’assurer son intégrité de façon pérenne.

La mise en place d’un entrepôt de données de santé peut intervenir dans un contexte de collecte, de traitement et de partage de volumes massifs de données. Un cas d’application de Big Data qui peut entraîner des questions de confidentialité ou même de coûts de stockage.

 

    Les réglementations en matière de données de santé

    Les données de santé sont considérées comme sensibles. Elles appartiennent au patient : leur usage ainsi que leur durée de conservation sont très réglementés par le secteur. Le règlement général sur la protection des données (RGPD), les référentiels de la CNIL ou le code de la santé publique encadrent fortement l’usage des données collectées dans le cadre d’une prise en charge par un professionnel libéral, un établissement ou un réseau de santé.

    Pour que les données restent souveraines, une majorité d’établissements privilégient la conservation et l’hébergement interne de leurs données, et n’autorisent le partage des données qu’en peer-to-peer, dans des cadres bien précis.

    Pourtant, les avancées et innovation en matière d’intelligence artificielle dans le domaine de la santé et de la médecine sont très prometteuses (aide au diagnostic, prévention de maladies et épidémies, personnalisation de l’expérience patient, etc.)

    La révision de la loi bioéthique a apporté de nouvelles précisions s’agissant des traitements algorithmiques des données de santé :

    • Le patient doit être informé en cas de recours à un traitement algorithmique dans la phase de prise en charge ou de recherche,
    • L’intervention d’un professionnel de santé (garantie humaine) est obligatoire dans l’adaptation des résultats des traitements algorithmiques. 

    Quelles perspectives pour la e-santé ?

    On observe une forte accélération des initiatives au sein du marché de la e-santé en France. La crise de la COVID-19 a permis de placer la e-santé au cœur des préoccupations des puissances publiques, des professionnels du secteur mais également des citoyens. La filière n’a jamais été aussi dynamique entre l’explosion de la télémédecine, le franc succès de l’application CovidTracker ou la dernière subvention de l’Etat d’une montant de 100M€ dédié à l’évaluation clinique des solutions d’e-santé.

    On observe toutefois un retard des établissements de santé en matière de capacité de traitement et d’analyse des données, causé principalement par des difficultés à appréhender maîtriser tous les maillons de la chaîne de valeur des données. Pour ce faire, des actions doivent continuer à être engagées pour viser 4 objectifs : valoriser le patrimoine de données, faciliter l’usage des données, protéger les données des citoyens et innover avec l’ensemble des acteurs.

    De vraies perspectives s’offrent tout de même aux acteurs de la santé pour améliorer la qualité des soins, le système de santé ainsi que la capacité de détection des maladies et épidémies : des thématiques fortes qui ouvrent également des réflexions sur la confidentialité des données personnelles et plus largement sur la confiance dans l’usage et le traitement de ces données sensibles.

    Livre Blanc

    Mise en œuvre d'une stratégie 
    de qualité des données 

    Livre Blanc

    Feuille de route d'une stratégie
    de Data Management 

    Baromètre annuel de la data

    Les priorités des décideurs
    data en 2022 

    Share This