Health Data : Industrialisation d’un graphe de connaissance sur l’oncologie et le SARS-CoV-2

Fév 11, 2021 | IA/Data Science

La Direction de la Recherche et de l’Innovation (Lab’Inno), division R&D du groupe Datavalue Consulting, conçoit des stratégies data activables alliant l’expertise de la valorisation de la donnée et les enjeux opérationnels des métiers de la santé, de la cybersécurité et du health monitoring de systèmes industriels. Avec de nombreux programmes R&D à son actif, la DRI Lab’Inno entend contribuer activement aux initiatives d’interopérabilité pour la consolidation de l’écosystème français et européen en matière d’outils stratégiques.

 

1. LORIA : Un dispositif à visée stratégique pour la recherche clinique

LORIA est un des programmes d’innovation incubés par notre Lab’Inno. Il vise à fournir via une plateforme en ligne, un modèle sémiotique multi-serviciel élaboré à partir d’un recueil en continu de la littérature scientifique, autoenrichi par des énoncés d’experts en recherche biomédicale et basé sur des standards d’interopérabilité ouverts :

  • Capable d’exposer une base de ressources bibliographiques compatibles au premier chef avec des hypothèses formalisées dans un processus de développement d’un médicament et, en deuxième lieu, avec des référentiels de la communauté de pairs,
  • Sachant traiter de façon cohérente un sous-ensemble de faits cliniques pertinents conformes à un protocole de recherche,
  • Fourni avec un kit de modules algorithmiques pré-qualifiés et élaborés selon une démarche d’architecture ouverte de type OSA-CBM, rentrant dans la conception de patterns prédictifs.

Inspirés des observations faites de la situation de pandémie COVID-19 et de sa brutale résurgence, nous avons souhaité prendre l’initiative de fournir un tel dispositif technologique dont la vocation première est d’aider à l’accélération de la recherche biomédicale. Le projet vise plus précisément à renforcer l’outillage technologique de la recherche clinique, en fournissant une ontologie de connaissance interopérable avec le web, capable de constituer un ensemble structuré des termes et concepts représentant le sens des champs d’informations liés à la COVID-19 et à l’oncologie, ce à partir de faits ou hypothèses cliniques prédéfinis.

Recherche & Innovation 2020 chez DataValue Consulting

2. Tirer profit de l’interopérabilité avec le web pour un état de l’art sur-mesure

Le schéma suivant illustre le procédé applicatif du projet LORIA :

schémas d'une plateforme de création et d'enrichissement d'ontologies pour la recherche biomédicale

Figure 1: le dispositif s’interface avec des sources de bibliographie scientifique de référence internationale, puis restitue via une interface visuelle interactive une palette d’informations exploitables (résumé orienté d’articles, cartographie interactive en réseau graphe de documents liés par des thèmes pré-élaborés…) par l’expert clinicien, moyennant une indication de faits cliniques, hypothèses ou énoncés axiomatiques en lien avec la thématique de recherche.

Scénario d’usage : mise en place d’un tracker d’approche solution pour l’aide à la décision d’hypothèses de recherche, dans un processus de développement d’un médicament.

 

Schéma du Dispositif LORIA - graphe de connaissance Ontologie Covid-19 et Oncologie

Figure 2: Le dispositif LORIA fournit une interface de restitution interactive qui s’appuie sur un graphe de connaissances actualisé en fonction des énoncés axiomatiques et d’un procédé de capture différentielle des ressources web. Le raisonneur sémantique LORIA interprète les énoncés renseignés et génère une séquence de couples (nœud, arrête) pour la formalisation quasi instantanée d’un cluster sémantique pertinent. La base ontologique ainsi établie permet de faciliter le design UX de l’interface de restitution.

 

3. Un modèle sémiotique évolutif grâce à des énoncés cliniques

Nous tentons de construire un graphe de connaissance à partir de ces articles scientifiques, sous la forme d’une liste d’énoncés (sujet/prédicat/objet) agglomérés.

Ce graphe de connaissance autoenrichi formalise deux niveaux d’abstraction :

  • Niveau 1 – Graphe de données : A partir d’une thématique biomédicale définie, par exemple « Sars-cov-2 », nous construisons un pipeline de traitements des articles scientifiques correspondants.
  • Niveau 2 – Réseau sémantique : Il s’agit de modéliser les classes des termes à partir de la connaissance métier de la recherche biomédicale. Le système attribue un sens « métier » aux termes stockés dans le graphe de données. La connaissance métier est prise en compte par le dispositif non seulement par la formalisation des énoncés axiomatiques ou hypothèses cliniques, mais aussi par la spécification formelle des sujets d’intérêt. Le réseau sémantique formel définit donc l’ensemble des classes sémantiques dont les liens sont inspirés de règles régies par la connaissance du métier de la recherche biomédicale.

> À LIRE AUSSI : Le “Health Monitoring System” : un nouveau tremplin vers le Big Data !

Ainsi, la combinaison de ces deux niveaux d’abstraction produit les faits et la sémantique extraits d’une base bibliographique centrée sur une thématique de recherche. Notre ontologie sémantique s’appuie sur une norme ouverte à tous les niveaux d’abstraction, ce qui lui confère le caractère interopérable dans le web.

 

4. Profusion de cas d’usage pour l’accélération de la recherche

Nos modèles sémantiques sont formels, évolutifs et assurent un bon équilibre entre expressivité et décidabilité. Nous leur associons nos algorithmes d’IA (Intelligence Artificielle) – combinant les modèles connexionnistes, symboliques et multi-agents – afin de renforcer l’expérience utilisateur par la profusion de cas d’usage potentiels :

  • Production de synthèse automatique,
  • Annotation instantanée de cooccurrences de faits cliniques,
  • Génération d’opportunités d’expérimentations,
  • Recherche de facteurs exogènes,
  • Génération de séquences combinatoires

A l’heure où les attentes de la recherche biomédicale sont de plus en plus marquées, le Lab’Inno entend contribuer activement, par son projet LORIA, d’une part, à l’effort de relance ; et d’autre part, à la capacité de résilience humanitaire. Ce programme peut s’inclure dans un dispositif de détection précoce des épidémies et d’innovation clinique

Le dispositif projet LORIA se tient ouvert à toute collaboration pour des partenariats de recherche et aussi pour contribuer à l’excellence opérationnelle d’unités scientifiques de laboratoires de recherche clinique.

Fort d’un capital humain qualifié et expérimenté, le centre de recherche et innovation du groupe DataValue Consulting incube depuis plus de cinq années de nombreux programmes de R&D traitant des thèmes du Cloud sémantique, de l’Ontolologie de connaissance et des Méthodes formelles en informatique.

Retrouvez l’article complet avec la description du modèle sémiotique : https://f.hubspotusercontent10.net/hubfs/8316412/Projet%20Lab%20INNO%20Loria/LabInno-DataValue%20Consulting-Article%20LORIA.pdf 

Rostand Nya Djiki Directeur Innovation & R&D

 

Par Rostand Nya Djiki 
Chief Innovation Officer chez DataValue Consulting

 

La rédaction vous conseille 

 > Le “Health Monitoring System” : un nouveau tremplin vers le Big Data !

Nos ressources

Livre Blanc

Mise en oeuvre d'une stratégie 
de qualité des données 

Livre Blanc

Feuille de route d'une stratégie
de Data Management 

Enquête Nationale

État des lieux du pilotage 
dans le secteur public en 2021 

Share This