Comment l’architecture Data Fabric simplifie les environnements data

Oct 25, 2022 | Archi/Big Data

Les entreprises voient leurs usages en matière d’analyse et de traitement de données se multiplier et leur patrimoine de données exploser. Les environnements data s’agrandissent et se complexifient, et la valorisation des données ainsi que son coût en sont affectés.

L’approche Data Fabric, ou “ tissu de données ”, consiste en une architecture de données unifiée conçue pour réduire la complexité des environnements data, bénéficier des avantages du cloud et faciliter la gestion des données par les utilisateurs. Gartner cite le Data Fabric comme une des 10 tendances technologiques principales en matière de gestion et d’analyse de données.

Nouveau call-to-action

Qu’est-ce qu’un Data Fabric ?

Comprendre le concept de Data Fabric ou « tissu de données »

Le terme « Data Fabric » fait référence à un concept émergent du Data Management reposant sur une architecture unique qui aide les organisations à mieux gérer l’ensemble de leurs données. Un Data Fabric intègre plusieurs technologies, services et sources de données pour créer un environnement data unifié et simplifié, en se détachant des modèles en silos. Cette approche simplifie l’accès et l’intégration des données quel que soit leur localisation (cloud, on-premise) et facilite la gouvernance des données au sein de l’organisation.

Ce modèle fait beaucoup parler de lui dernièrement car il permet de répondre aux défis découlant de l’augmentation des volumes de données à gérer, et de la multiplication des points où sont stockés les données avec des modèles hybrides et multicloud largement adoptés ces dernières années. Ces infrastructures centrales permettent d’accroitre le contrôle et de simplifier la gestion des données, dans des environnements largement distribués et souvent trop complexes.

Quels sont les avantages d’un Data Fabric ?

  • Une meilleure gestion des données, grâce à des métadonnées qui permettent de construire un environnement unifié et simple à maintenir.
  • La démocratisation des données est favorisée en rendant l’ensemble des jeux de données (peu importe leur localisation ou format) accessibles aux utilisateurs qui en ont le besoin, via une centralisation des accès aux données.
  • La réduction de la complexité en favorisant l’automatisation et la rationalisation des processus qui maintiennent et créent l’environnement data.
  • Une meilleure traçabilité, fiabilité et sécurité des données. Cet environnement unifié permet de tracer les données, leurs usages et leurs transformations grâce à la documentation de leur traitement. Cette documentation facilite l’identification de données redondantes et inexactes, et permet de bien mieux contrôler les atteintes à la sécurité et à la confidentialité.
  • Une meilleure gouvernance, grâce à un environnement contrôlé (gestion des accès aux données, traitements des données…).

Zoom sur 3 atouts du Data Fabric

L’amélioration de l’accès à la data

Les nombreuses données gérées par les organisations peuvent être éparpillées dans plusieurs systèmes : data warehouse, data lake, applications SaaS, sources externes, etc. Le défi est de pouvoir garantir à leurs employés, un accès à l’ensemble de ces données sans avoir à les copier ou à les déplacer, ce qui peut nécessiter un certain savoir-faire et accentuer la complexité de l’environnement.

Un Data Fabric fourni une couche de virtualisation qui permet de centraliser l’accès aux différentes sources de données, sans avoir à les déplacer ou les copier dans un autre référentiel. Ce modèle permet de tirer parti des infrastructures déjà établies (data catalog, référentiels, systèmes ETL…) en améliorant la manière dont elles sont sollicitées par les utilisateurs.

La gouvernance et la confidentialité des données

La gouvernance est un sujet-clé pour toute organisation data-driven qui doivent s’assurer d’avoir un système efficace pour régir les processus et les accès. Grâce aux métadonnées, le Data Fabric permet d’automatiser en grande partie l’application des politiques de l’entreprise.

Les organisations peuvent facilement définir et automatiser le masquage de certains aspects ou détails que l’on souhaite expurger des jeux de données. La gestion des accès se définit le plus souvent selon une méthode de contrôle d’accès basé sur des rôles.

Le Data Fabric permet également d’obtenir des informations détaillées sur le lineage des données. Cette capacité de traçabilité nous renseigne sur la source des données, sur leurs utilisations ainsi que sur les transformations qu’elles ont subies. Cet aspect du Data Fabric apporte des connaissances essentielles pour évaluer la qualité des données : actualité, utilité, exactitude de la donnée…

La conformité des données face aux réglementations

Les règlementations encadrant l’utilisation de la donnée se multiplient, il y a le RGPD, le Data Act, mais également des réglementations visant certains secteurs d’activité (comme la réforme Solvabilité II dans l’assurance). Assurer la conformité des données est un challenge grandissant pour lequel le Data Fabric peut aider. À l’instar de l’automatisation des politiques de gouvernance et de confidentialité d’une organisation, les politiques de conformité peuvent également faire l’objet d’automatisations.

Lorsqu’on conçoit le nombre de répercussions que peut avoir une règlementation comme le RGPD, on s’aperçoit rapidement qu’un système automatisé et sécurisé peut apporter de nombreux bénéfices en termes de fiabilité et de gain de temps.

La mise en place d’un Data Fabric

Définition des cas d’usage et identification des sources de métadonnées

Dans un premier temps, les sources principales de métadonnées doivent être identifiées. Pour cela, il faut tout d’abord s’assurer que les problématiques business auxquelles on souhaite répondre sont bien définies. Ensuite, on peut identifier les données et métadonnées nécessaires pour répondre à ses problématiques.

Cette étape peut être réalisée en s’aidant d’éventuels programmes de gouvernance de données menés antérieurement et des catalogues de données que détient l’organisation. Pour accélérer ce travail, il est préférable de faire appel à des experts qui pourront rapidement identifier les données requises et leur emplacement.

La création d’un MVP de modèle de données

Une fois que les sources données pertinentes ont été identifiées, le MVP du modèle de données peut être réalisé. À ce niveau, il faut pouvoir identifier les concepts clés qui dictent les cas d’usage et savoir se limiter à ce qui est réellement nécessaire à leur réalisation. Au travers de ce MVP, on peut évaluer si le cas d’usage sera assez précis et s’il apportera un résultat assez fin. Si un cas d’usage sollicite plus de 10 entités (exemple d’entité pour un magasin : produit, client, commande, rayon…), le modèle de données risque d’être trop volumineux et en l’implémentant, la question fondamentale à laquelle on souhaite répondre risque d’être perdue de vue. Dans ce cas, il faudra faire un retour vers la première étape pour affiner les cas d’usages définis.

Pour faciliter cette étape, on peut choisir de s’aider d’un modèle de donnée existant (disponibles en accès public) ou faire appel à des professionnels qui pourront assurer une modélisation des données optimale grâce à leur expertise. Si l’organisation dispose déjà d’un catalogue de donnée, ce sera grand avantage pour ne pas avoir à commencer le modèle d’une page blanche.

L’alignement des données sur le modèle

Le modèle de données a été choisi ou réalisé, les données peuvent maintenant y être connectées. Cette étape consiste à connecter les métadonnées, les données et le modèle au système. Nul besoin d’extraire les données, de les reformater ou de les charger, grâce à la virtualisation des données, celles-ci, quel que soit leur source ou leur format, pourront être examinée dans les référentiels de données existants.

Afin d’assurer la fluidité de cette étape, il est nécessaire d’avoir, au préalable, réalisé la cartographie des sources de données et des pipelines ETL. Pour ne pas retarder ce travail, les accès à la data doivent aussi avoir été demandés en amont, notamment pour les données sensibles qui sont moins facilement accessibles.

La configuration des applications

La quatrième étape concerne l’utilisation qui sera faite des données. Les sources de données qui ont été intégrées précédemment dans le système doivent désormais être connectées aux outils et applications des utilisateurs finaux, pour qu’elles puissent répondre à leurs problématiques.

Les données peuvent être connectées simplement aux applications existantes avec des points de terminaisons SQL ou API. Les utilisateurs finaux pourront ainsi accéder aux données, sans avoir à comprendre le modèle de donnée, ou à apprendre un certain langage de requête.

Itération de l’opération sur les nouvelles sources de données

Enfin, il suffira de répéter ce processus pour intégrer de nouvelles sources de données. Un Data Fabric peut facilement s’agrandir et évoluer pour supporter de nouveaux cas d’usage ou les améliorer ceux qui existent déjà.

Conclusion

Les modèles traditionnels utilisés pour intégrer et consolider les données montrent aujourd’hui des signes d’obsolescence. Pour ne pas perdre en agilité et s’affranchir de la rigidité des modèles traditionnels, les organisations se tournent de plus en plus vers un modèle Data Fabric. En mettant en place un Data Fabric, l’organisation pourra également profiter d’une réduction de ses coûts liés au stockage, à la sécurité et à la qualité des données. Pour voir les différents avantages apparaître rapidement, il est préférable de faire appel à un cabinet spécialisé comme DataValue Consulting qui pourra apporter son expertise dans la conception du modèle, mais aussi assurer l’adhésion des utilisateurs à ce nouveau système.

Livre Blanc

Mise en œuvre d'une stratégie 
de qualité des données 

Livre Blanc

Feuille de route d'une stratégie
de Data Management 

Baromètre annuel de la data

Les priorités des décideurs
data en 2022 

Share This