ASTRAIA : un dispositif innovant d’aide à la décision pour les acteurs du droit et du juridique

Mai 18, 2022 | Actus DVC

DataValue Recherche & Innovation, centre R&D du groupe DataValue Consulting, mène de nombreuses expérimentations technologiques alliant l’expertise de la valorisation de la donnée et les enjeux d’excellence opérationnelle des métiers du domaine juridique et fiscal[1].

Par suite de valeureux résultats issus de travaux de veille scientifique et technologique active, le LAB’INNO entreprend de nombreuses initiatives afin de répondre aux enjeux d’interopérabilité et de consolidation de l’écosystème français en matière d’outils stratégiques et d’aide à la décision.

L’exploitation disruptive de millions de contenus éditoriaux exclusifs (lois, décisions de justice de différents pays, données comportementales, logs types dons et lègues, etc.), concoure à améliorer significativement les activités juridiques par la diffusion d’insights auprès des professionnels et des justiciables mais aussi par la mise à disposition de services cognitifs sur-mesure.

[Ebook] Astraia, la plateforme d'aide à la décision pour les acteurs du droit et du juridique

Métiers du droit et de la justice : un secteur en crise

La Convention européenne des droits de l’homme indique que toute personne a droit à ce que sa cause soit entendue équitablement, publiquement et dans un délai raisonnable.

Or, ce dernier point fait face à de réelles difficultés. Cela est notamment due à un nombre de dossiers à traiter astronomique. En 2019, le nombre de décisions rendues suite à des litiges judiciaires s’élève à 2,25 millions. Concernant la justice pénale, ce n’est pas moins de 4 millions d’instructions d’infractions relevées, pour seulement 1,8 million traitées suite au tri des services du procureur de la République.

Les états généraux lancés en octobre 2021 avec la consultation de 16 000 professionnels du droit et magistrat mettent en lumière les principaux dysfonctionnements.

Les principaux éléments concernent la complexité des procédures, la lenteur de la justice liée à la complexité des dossiers et leur densité, un manque de moyens humain et économique, des délais de procédures et d’études longs et un besoin fondamental d’uniformiser et d’unifier les textes et les conclusions.

Tous ces éléments révèlent de profondes problématiques organisationnelles et structurelles causées par un encombrement de la justice.

Cette situation d’encombrement est contre-intuitive lorsqu’on évalue le temps de travail exercé par ces professionnels. Des études régulières publiées depuis 2009 mettent en exergue que plus de 39% des avocats ont un temps de travail entre 46 et 55 heures. 31% affirment travailler plus de 55 heures hebdomadaires.

Enfin cette situation est standardisée à tout niveau, le temps de travail touche autant les profils juniors que les profils séniors, la même étude révèle que le haut temps de travail dans les cabinets d’avocats est généralisé. Cette information confirme que les dysfonctionnements sous-jacents ne sont pas dus à un manque d’investissement des acteurs face à une charge de travail qui pourrait être jugée « raisonnable ». Car dès leurs entrées dans un cabinet une grande majorité des actifs travaillent déjà plus de 46h par semaine. Les praticiens du droit sont ainsi en ‘overwork’. Ceci implique un flux tendu de dossiers à traiter qui intrinsèquement crée une réserve d’affaires, cette réserve provoque ce retard dans les instructions de dossiers. Cette réalité n’est que l’une des nombreuses problématiques auxquelles la justice et autres professionnels du droit doivent trouver les moyens de répondre.

Afin d’aider et de résoudre les causes de ces dysfonctionnements, l’IT offre différentes solutions aidant les juristes dans leurs travaux au travers de softwares et de solutions numériques. Celles-ci leur permettant entre autres d’automatiser les tâches administratives jugées régulières et chronophages. Ces solutions portent le nom de LegalTechs.

La LegalTech : un écosystème IT en pleine croissance

La LegalTech désigne les entreprises spécialisées dans le numérique qui mettent au service des professionnels du droit leurs compétences en création de solutions. L’objectif est de digitaliser et de proposer des solutions et des outils permettant de les aider dans les tâches de gestions administratives, mais aussi plus récemment au travers de solutions axées services. En France, les LegalTechs augmentent régulièrement leurs potentiels, grâce à de nombreuses levées de fonds ; 57,8 millions en 2021 et d’augmentation des chiffres d’affaires. Une grande majorité des startups du domaine sont actuellement encore dans la phase de développement de leurs solutions et donc dans un processus de croissance.

Elles affichent une volonté franche de recrutement, 77,1 % de ces structures souhaitent recruter dans les 3 prochains mois et 36,1% sont encore des microstructures constituées entre 1 à 5 employés. Cela va dans le sens d’une véritable volonté d’augmentation du marché et de l’usage de l’IT au service des métiers juridiques. Le domaine des technologies de l’information au service du juridique représente actuellement un marché de 500 millions d’euros en France et affiche toujours une croissance positive. Les acteurs qui affichaient un CA entre 10 et 30 millions euros marquent une croissance à 183%, aujourd’hui moins de la moitié des acteurs (48%) affiche un CA inférieur au million d’euros contre les 57,8% précédemment affichés, le marché est donc dans une croissance positive claire.

La répartition des services mis en place par les LegalTechs est encore très limitée dans ce qui concerne les solutions employant le Big Data. L’on se rend compte que l’on reste majoritairement dans des propositions ayant pour but l’unique digitalisation des services.

Le baromètre de Maddyness / Wolters Kluwer et l’observatoire des LegalTechs permettent d’identifier les tendances actuelles des services du marché.

L’application des technologies Big Data n’est présent qu’à très faible proportion (à peine 9% de la totalité du marché). 1% seulement est dédié au Data Mining.

Les données collectées par le baromètre Maddyness/Wolters Kluwer révèlent un retard dans la mise en application concrète des solutions numériques auprès des métiers juridiques. Cette transformation se matérialise par la mise en place de solutions jusqu’à présent couvertes par un ERP (outil de planification des ressources de l’entreprise) ou un CRM (outil de gestion de la relation client). Quelques outils administratifs visant à faciliter certaines tâches redondantes comme la création de certains actes, se mettent peu à peu en place dans l’écosystème juridique. Les solutions en place restent cependant insuffisantes pour répondre aux problématiques du secteur de la justice dans l’Hexagone.

Les professionnels du droit pour qui la recherche est l’élément central de leurs métiers doivent avoir des outils adaptés à leurs besoins. Cela passe par l’exploitation du Data Mining, la mise en place d’outils d’aide à la décision et l’usage de technologies Big Data.

Le Big Data : une optimisation au service des métiers juridiques

La majorité du temps de travail et de préparation d’une conclusion juridique repose sur 2 facteurs :

Analyse exploratoire des bases de données des historiques de décision de justice,
Qualité de la restitution d’informations mise à disposition des praticiens dans un délai donné au travers de différents canaux de diffusions de jurisprudences et doctrinale.

Ces 2 facteurs s’opèrent en tout temps afin de répondre de manière opérationnelle et de justifier toutes positions, conclusions ou jugements. Le Big Data est actuellement de plus en plus utilisé afin de faire le lien entre la recherche pure et l’application métier. Cela peut s’exprimer au travers de visualisations et d’analyses de données. La volumétrie de données et son importante densité fournie par l’Open Data juridique justifient l’usage d’une telle technologie.

Chacune des étapes qui constituent le long processus des affaires judiciaires et civiles peut faire l’objet d’une aide, d’un support ou d’une optimisation par les technologies du Big Data. Cela permettrait la structuration des conclusions au travers de propositions d’explorations.

L’IA est une aide fondamentale pour traiter plus rapidement les renseignements d’un nouveau dossier et mettre en lumière les accointances potentielles afin d’étayer les travaux de recherches. Cela passe par l’analyse de la législation, de la jurisprudence et de la doctrine afin de construire le meilleur argumentaire ou encore négocier au mieux le montant des dommages et intérêts, par exemple.

Les solutions d’e-discovery font aussi partie du panel d’outils qu’offre le Big Data. Elles permettent l’identification automatisée des documents pertinents afin de faire face à l’augmentation constante du volume de preuves recueillies au cours des phases d’enquêtes (instruction des affaires pénales par exemple) et ce surtout à la vue des délais de plus en plus court à disposition pour préparer les défenses.

Le Big Data permet aussi la génération automatique de documents afin d’exprimer des exigences particulières grâce au NLP. L’uniformisation et la standardisation permettraient une exploration plus simple de la part du métier et d’éviter les erreurs fonctionnelles au moment de la rédaction humaine des actes. En l’état, la non-standardisation implique un Open Data juridique constitué en très grande majorité de données non structurées, rendant plus difficile leur analyse.

L’utilisation de ces outils reste encore complexe et difficilement accessible pour les experts n’ayant pas la double expertise informatique et juridique, mais l’évolution de la recherche avance et laisse présager l’apparition de moyens plus ergonomiques.

Ainsi notre constat est simple. L’utilisation des banques de données doit permettre de raccourcir le temps de recherche et d’information mettre en place une solution « all in one » afin de recentraliser tout ce dont le métier aurait besoin sous forme d’aide à la décision.

En revanche, ces technologies peuvent entraîner des questionnements éthiques, particulièrement dans la mise en place et l’application à des cas réels. Comment déterminer l’influence que peut avoir l’IA sur nos décisions ? La justice peut-elle être elle-même influencée par des éléments dénués du sens commun ?

Ces questions sont aujourd’hui au cœur des débats comme le démontrent certains écrits légaux visant à mettre en place un cadre législatif. On observe en ce sens des propositions de régulations déposées devant le parlement européen, par exemple : « Regulation of the European Parliament and of the council laying down harmonised rules on artificial intelligence », résumé en « Artificial Intelligence Act » qui fut déposée devant la commission le 21 avril 2021.

Solution ASTRAIA, la plateforme qui harmonise et potentialise les usages de la data pour les métiers du droit et de la justice

Le projet ASTRAIA a pour objectif de proposer un dispositif de construction et d’enrichissement en ligne d’une base de connaissance de faits juridiques. Il propose de nombreux services, de l’exploration de documents à la détection d’accointances entre diverses affaires juridiques, en passant par la recherche exploratoire.

ASTRAIA est une plateforme d’exploration profonde d’un large historique de documents juridiques (contrats, arrêts de cours, jurisprudences, doctrines, litiges, contentieux, dons, legs…) et un socle technologique de construction en ligne de modèles de liens sémantiques entre les documents multi sources et les bases de référence.

Par co-construction avec les professionnels du droit et de la justice, la plateforme ASTRAIA s’apparente à un atelier logiciel qui vient outiller le processus global des activités, et :

Intégrer sous forme ontologique et de manière évolutive les concepts du métier ainsi que les règles modélisées en temps réel.
Générer des avis et des liens thématiques grâce à un raisonneur sémantique qui accélère le processus de découverte d’informations juridiques activables (legal insights discovery).

Ci-contre une vue schématique du fonctionnement de la plateforme dans un SI d’entreprise de services juridiques et du droit :

Plateforme ASTRAIA – Scénario d’utilisation pour l’accélération du processus de découverte d’insights pour les agents du service juridique, grâce à un raisonneur sémantique sur-mesure

Une architecture ouverte et interopérable

Trois modules majeurs constituent l’univers ASTRAIA :

Un module de collecte de donnée via un importer faisant usage des APIs des sites récupérant directement les données.
Un module de transformation qui permet aux données d’être intégrées et structurées dans des banques de données.
Un panel de services dont l’architecture est basée sur le standard W3C.

Architecture Fonctionnelle

Une stratégie de capture différentielle de données multi-sources

C’est dans ce cadre que nous avons mis en place une solution web venant récupérer les données sur différents sites de référence. Il existe un lien direct entre la solution et les sites Légifrance et Dalloz.

Ces importations de données permettent de cartographier tous les textes légaux et une grande partie des affaires rendues en jugement définitif au sein d’une banque de données unifiée et simple d’accès autant d’un point de vue d’application professionnelle ou éducationnelle.

L’avantage de ces sites résident dans le fait qu’ils soient constitués d’Open Data, impliquant l’absence de contraintes systémiques sur la donnée, et leur mise à jour quotidienne.

La digitalisation systémique des données légales devient peu à peu un standard pour les nouvelles données. Les anciennes données sont quant à elles de plus en plus digitalisée au travers de PDF impliquant un processus d’intégration de données.

Par ailleurs, la doctrine est l’une des sources d’information essentielle pour étayer des propos en droit, au point que des jurisprudences puissent s’appuyer dessus, et qu’elle puisse motiver des conclusions. Il est donc nécessaire qu’elle soit intégrée au processus de collecte de données.

En revanche, cette donnée est complexe à extraire par sa nature documentaire, alors que les codes sont collectés comme l’on ferait sur un dictionnaire. Les articles universitaires doctrinaux de droit présent sur des plateformes tel que ‘HAL’, ‘isidore’, ‘these’, etc. sont des sources nécessitant un véritable travail de transformation complexe une fois la donnée collectée. Au travers d’un OCR (reconnaissance de charactère) et de NLP (Natural Language Processing, IA d’interprétation de texte.)

Une API conçue et développée sur mesure (Importer) permettra l’intégration de toutes ces données à travers un ETL (flux d’acquisition de données internes).

Une base ontologique auto-adaptative

La phase de transformation des données intègre un mapping structurel afin de répondre aux exigences de l’expertise métier. Pour ce faire, les indicateurs-clés de la partie structurée des données sont mis en place. Cette connaissance sera encodée sous la forme de fichiers de configurations dédiés au besoin fonctionnel de l’instance d’utilisation de la solution ASTRAIA.

Deux modèles sont à prendre en compte :

Le modèle de données conceptuel qui permet de générer un arbre lexicographique à partir des règles d’expertise métier mises en place par un panel d’associations sémantiques évalué en amont. Ce modèle aura besoin d’analyses avancées au travers du NLP. Ces sources sont les plus difficiles à préciser et sont basées sur des données non structurées telles qu’une jurisprudence, une conclusion ou un écrit doctrinal. Le résultat de cette analyse est constitué de données intelligibles sous le format d’une structure ontologique nommée Golden Data.
Le modèle graphe qui permet de générer en temps réel une population de données induites de l’expertise métier. Cela concerne toutes les données pouvant être facilement structurées (textes légaux) dont la hiérarchie naturelle des codes rend le traitement simple. L’arborescence remonterait jusqu’au titre et l’élément le plus petit serait l’alinéa.

Ces textes légaux permettent de nourrir un moteur de recherche exploratoire et une banque de données structurées qui servent à détecter des accointances entre différentes décisions ou conclusions. Cette détection prend forme à travers un score de correspondance prenant en compte la décision du magistrat et permettant de rechercher des précédents et montrer qu’un raisonnement précis a, ou n’a pas abouti.

C’est là que les deux modèles sont mis en commun. Cela fait de la solution ASTRAIA une solution d’aide à la décision avec un dashboard de recroisement de données intelligibles. La mise en place de conditions de stockage est nécessaire, sans quoi le recroisement des ‘KI’ (indicateur clé) et des « Golden Data » héritées des analyses de NLP ne peut être opéré.

La présence de deux types de données implique deux typologies de stockage :

le stockage des données en banque de données Graphes (envisagé au travers de la technologie Janus Graph)
le stockage en dur pour la partie des données qui n’est pas structurée.

Le langage de requête GraphQL est combiné à l’architecture de développement en Python, conférant ainsi à la solution ASTRAIA un caractère interopérable avec le web et les architectures industrielles de micro-services.

Un catalogue de services activables

La solution ASTRAIA met à disposition des utilisateurs une interface ludique et ergonomique pour la construction de flux d’exploration ad hoc. Conçue et développée avec la double expertise métier et technique, ASTRAIA permet une pleine immersion des professionnels du droit et du juridique grâce à :

un workflow novateur issu d’une méthodologie de travail qui permet une restitution en quelques clics : Import/Sélection de données > Création d’un groupe de travail > Annotation en quelques clics > Entraînement simultané du raisonneur sémantique > Restitution visuelle interactive.
des modules algorithmiques préconfigurés notamment pour le parcours automatique du graphe de connaissance. Cette pré-configuration permet à des non-informaticiens de pouvoir opérer simplement et d’être dans un processus d’optimisation du temps.

Ces services se résument en trois grandes catégories :

Cette description des services et des strates applicatives pose les bases d’un projet complexe et ambitieux. Elle sous-tend la présence d’hypothèses fonctionnelles, opérationnelles, techniques et scientifiques inhérentes à la nature même de ce projet. Le laboratoire d’innovation tente de lever quotidiennement, durant l’exécution du projet, certaines de ces incertitudes en collaboration avec les experts métier.

Concernant l’interopérabilité de la solution ASTRAIA avec le web, l’objectif est de positionner le formalisme pivot ASTRAIA comme format intermédiaire de production d’une ontologie sémantique pour les métiers juridiques et du droit. Le projet comprend donc des actions de dissémination et d’implications auprès des acteurs concernés afin de le promouvoir.

L’essence du projet ASTRAIA s’articule ainsi autour de 3 intérêts majeurs :

Aider les acteurs des métiers du droit et de la justice dans la mise en œuvre de services cognitifs sur-mesure,
Contribuer aux initiatives de coopérations pour la consolidation de l’écosystème LegalTech au niveau français et européen
Positionner DataValue Consulting sur la scène internationale comme acteur majeur de solutions LegalTech.

Vos interlocuteurs

Josselin Leclerc

Josselin Leclerc
Data Engineer chez DataValue Consulting

Rostand Nya Djiki Directeur Innovation & R&D

Rostand Nya Djiki
Chief Innovation Officer chez DataValue Consulting

Ressources bibliographiques

Bibliographie scientifique

[1] TORFI, Amirsina, SHIRVANI, Rouzbeh A., KENESHLOO, Yaser, et al. Natural language processing advancements by deep learning: A survey. arXiv preprint arXiv:2003.01200, 2020.

[2] LIU, Yang et LAPATA, Mirella. Text summarization with pretrained encoders. arXiv:1908.08345, 2019.

[3] ZHANG, Xingxing, WEI, Furu, et ZHOU, Ming. HIBERT: Document level pre-training of hierarchical bidirectional transformers for document summarization. arXiv preprint arXiv:1905.06566, 2019.

[4] BAEVSKI, Alexei, EDUNOV, Sergey, LIU, Yinhan, et al. Cloze-driven pretraining of self-attention networks. arXiv:1903.07785, 2019.

[5] Mikael Kågebäck, Hans Salomonsson. Word Sense Disambiguation using a Bidirectional LSTM. arXiv:1606.03568.

[6] Ikuya Yamada, Koki Washio, et al. Global Entity Disambiguation with Pretrained Contextualized Embeddings of Words and Entities. arXiv:1909.00426v2.