La virtualisation des données (ou DV pour Data Virtualization), concept qui peut parfois paraître abstrait, complexe et technique, est en fait un procédé relativement simple à appréhender.
Dans cet article, nous nous intéresserons dans un premier temps à définir le concept, puis nous en explorerons les principes, bénéfices et enjeux, pour enfin aborder quelques cas d’usage traditionnels de la DV.
Le concept de virtualisation des données
Avant d’aborder la notion de virtualisation des données, commençons par apporter une définition générique du concept de virtualisation au sens large :
La virtualisation est l’abstraction totale des ressources informatiques physiques. Ainsi, certains composants matériels peuvent être abstraits et virtuellement remplacés. Cette abstraction se fait donc au profit d’un composant virtuel ou logique. Ce dernier doit être en mesure d’assurer un fonctionnement en tout point similaire à son équivalent physique.
D’un point de vue opérationnel ou technique, la virtualisation consiste à créer un système virtuel unique dont l’objet est de regrouper une multitude de systèmes physiques. Il s’agit d’une démarche permettant de créer et d’exécuter une représentation virtuelle de plusieurs ressources informatiques.
On dénombre par ailleurs six domaines informatiques où la virtualisation est déployée :
- La virtualisation de serveurs. Dans ce domaine, la démarche consiste en la mise en place d’une machine virtuelle (couche logiciel) qui permet l’exécution de plusieurs systèmes d’exploitation (Operating System) sur un seul serveur physique. Ce type de virtualisation repose sur le rôle d’hyperviseur. C’est grâce à ce logiciel, installé sur le serveur physique, que la gestion des différents OS est assurée.
- La virtualisation de réseaux. Ce type de virtualisation permet d’opérer une abstraction logicielle des ressources réseau historiquement déployées sous forme matérielle. Ainsi, la virtualisation d’un réseau peut regrouper plusieurs réseaux physiques en un seul réseau virtuel, ou à l’inverse, partitionner un réseau physique unique en une multitude de réseaux virtuels indépendants et distincts.
- La virtualisation de stockage. Cette approche offre la possibilité de centraliser et de fédérer plusieurs espaces et volumes de stockage en une seule et unique ressource.
- La virtualisation desktops. La virtualisation des postes de travail permet aux entreprises d’être proactives, et ce notamment quant aux transferts rapides de postes de travail vers des appareils mobiles et tablettes.
- La virtualisation d’applications. Ce procédé permet d’exécuter une application sous une forme encapsulée. L’application est alors complètement indépendante du système d’exploitation. A titre d’exemple, les utilisateurs exécutent différentes versions de navigateurs (Internet Explorer (IE) 6 et IE 7) sur le même système d’exploitation de manière transparente et sans interruption des opérations en cours.
- La virtualisation de données ou data virtualization. Cette approche définie ci-dessous, garantit notamment la résilience ainsi que la fraîcheur des données.
La virtualisation des données repose sur l’abstraction des détails techniques de la donnée. À titre d’exemple, les éléments techniques inhérents à une donnée peuvent être son format, sa localisation ou sa date de création. En d’autres termes, la DV permet de manipuler plusieurs sortes de données (texte, image, etc) en provenance de bases et systèmes opérationnels divers et variés.
La centralisation des sources de données répond à plusieurs enjeux tant organisationnels qu’opérationnels. L’analyse de phénomènes récurrents, la prédiction, ou encore la gouvernance des données sont largement facilitées par la mise en place de cette couche sémantique.
De l’abstraction des sources de données à leur croisement
L’accès unique aux données est garanti par le principe moteur de la virtualisation. En effet, par essence, la virtualisation propose de centraliser toutes les (re)sources disponibles et d’y accéder depuis un point d’entrée unique.
Ainsi, la recherche et l’exécution sur une donnée sont réalisées depuis une interface centrale unique, et ce peu importe la source (localisation) initiale de cette donnée. L’utilisateur peut à tout moment adresser n’importe quelle donnée depuis un seul et même point d’entrée.
En outre et comme nous l’avons susmentionnée, la DV permet la mise en place d’une couche d’uniformisation sémantique des données. Ainsi, les exercices de mapping et de croisement de données deviennent intuitifs, à la portée de tous les utilisateurs.
L’unification des données génère un gain de temps incontestable notamment en termes de requêtage, et engage parfois des modifications dans les processus organisationnels. À titre d’exemple, il est souvent nécessaire (au sein de certaines organisations) de faire appel au département IT pour disposer d’extractions de données. Aussi, le temps écoulé entre la formulation de la demande par le métier et la mise à disposition des données peut parfois rendre les données déjà obsolètes. Il arrive également que les données attendues soient issues de systèmes différents, ce qui rend l’extraction ainsi que les traitements ultérieurs d’autant plus chronophages. La virtualisation des données constitut un véritable levier car elle permet aux utilisateurs finaux d’accéder à la donnée sans intermédiaire et ce peu importe sa source. Outre le gain de temps, la data virtualization offre une certaine liberté aux métiers, généralement consommateurs finaux de la donnée.
Le traitement et la synchronisation des données
La DV offre d’autres bénéfices dont la disponibilité ainsi que la fraîcheur des données. En effet, grâce à la DV, il devient possible pour les utilisateurs d’accéder à la donnée en temps réel, de lui appliquer des traitements (nettoyage, croisement ou autre) puis de l’exploiter en la consommant de diverses manières. À titre d’exemple les données peuvent être utilisées pour des projets de BI ou de data science (cas d’usage détaillés par la suite).
> À LIRE AUSSI : Où en êtes-vous dans vos projets Business Intelligence ?
Aussi, la fraîcheur des données est garantie par la non-réplication des données. En effet, les outils de DV tels que Denodo ne répliquent ni ne stockent les données mais en manipulent les vues. Ainsi, les performances et temps de réponses sont optimisés et la fraîcheur ainsi que la disponibilité des données sont assurées. Ces dernières sont par conséquent exclusivement liées au bon fonctionnement et à la disponibilité de leurs systèmes sources.
Une gouvernance des données facilitée
S’ajoute à l’optimisation des performances et à la consommation facilitée des données, la possibilité de sécuriser et gouverner les ressources de l’organisation.
En effet, la couche logicielle de virtualisation des données permet de gérer de manière fine et précise les accès à la donnée, mais aussi d’appliquer certaines normes et traitements règlementaires.
En outre, la résilience, la sécurité et l’auditabilité des données sont assurées par les outils et solutions de DV. A titre d’exemple, l’anonymisation des données – traitement courant de data quality – permet de respecter les normes et engagements RGPD.
Enfin, la mise en place d’un projet de DV nécessite à minima l’analyse et la cartographie des flux de données de l’organisation. Cette cartographie permet entre autres d’identifier et de définir le cycle de vie de la donnée. Aussi, documenter la donnée et en formaliser la traçabilité représentent les enjeux majeurs d’une exploitation pertinente et de la valorisation des données.
Des composants de types Data Lineage, Master Data Management ou Data Catalog -documentation des données pouvant être consommées en temps réel – sont proposés par les éditeurs de solution de DV. Cette brique de méthodologies et outils de Data Gouvernance établit la sécurité de l’accès aux données, leur traçabilité et bien d’autres bénéfices.
Comme évoqué ci-dessus, la DV a de nombreux avantages et compile de nombreux enjeux tels que la qualité, la disponibilité et l’accès aux données. Cette couche logicielle dispose par ailleurs d’un large champ d’applications et couvre par les fonctionnalités qu’elle propose un grand nombre de cas d’usage.
Data Virtualization : exemples de matérialisation et de cas d’usage
- Optimisation de l’intégration de données
Pour l’intégration d’une source de données supplémentaire – par exemple le lancement d’une nouvelle application – les patterns pouvant être mis en place grâce à la DV sont plus complexes et plus efficaces que ceux relevant des techniques d’intégration traditionnelles.
Cette abstraction logique permet par ailleurs d’éliminer la problématique de migration de données et ce notamment en accélérant à la fois la normalisation sémantique des données et la mise à disposition – disponibilité – des données fraîchement intégrées. Ainsi, dans un contexte de versioning d’application, l’intégration des données sera facilitée pour l’IT et transparente pour l’utilisateur final.
- Vision client 360°
La vision client 360° consiste à identifier et maîtriser tous les points de contact avec le client final. Il s’agit d’être en mesure de visualiser et de disposer de toutes les informations d’un client de manière synoptique, indépendamment de la source de collecte de ces données.
Ici, l’exercice consiste donc à regrouper l’ensemble des données clients disponibles afin de leur appliquer les traitements adéquats (data quality, anonymisation, etc.). Ces données sont dispersées dans les différentes applications ou branches du système d’information de l’entreprise. Une solution de DV permet d’avoir rapidement une vision unifiée d’un client.
Les travaux et réalisations autour de la DV permettent également de faciliter la migration d’applications vers le cloud, l’analyse de la performance (mise en place d’indicateurs et de tableaux de bord), la mise en conformité (traçabilité des données et de normes RGPD), ainsi que la mise en place de projets de data mining et de data science.
La rédaction vous conseille
> Outils de data visualisation : enjeux, tendances et chiffres clés