Dans le cadre de votre stratégie de data management et de votre plan de gouvernance des données, la gestion de la qualité des données constitue un enjeu fondamental.
Parmi les différents processus et outils à mettre en place dans ce contexte, le data lineage (ou lignage des données) permet de maintenir la qualité des données dans la durée, en organisant la distinction entre processus fournisseurs et consommateurs.
Initialement développée pour les besoins du secteur bancaire, il s’agit d’une cartographie du cycle de vie de la donnée, véritable atout de la stratégie data, qui assure la maîtrise des risques et génère des gains opérationnels.
Data lineage, pilier de la stratégie de qualité des données
Sous l’égide du Chief Data Officer, le data linéage renseigne sur l’origine, les traitements successifs appliqués et les différents usages finaux appliqués à une même donnée : en somme, c’est un référentiel commun des métadonnées relatives à une donnée. Cette donnée pourra donc être tracée et son exactitude pourra être justifiée à tout moment. Les renforcements récents des cadres de traitement des données personnelles, comme la RGPD, accroissent la nécessité du recours à ce procédé. La connaissance approfondie des flux de données est également indispensable à tout plan de valorisation de la data.
Le data lineage constitue le pilier de la stratégie de qualité des données grâce auquel vous pourrez connaître :
- Le créateur de la donnée afin de pouvoir l’identifier en cas de corrections à effectuer sur une partie des données ou pour obtenir des réponses sur leur origine. Par exemple, une donnée erronée se retrouvant consolidée dans un état de la solution EPM pourra être tracée jusqu’au reporting initial et à son créateur,
- La raison d’être de la donnée pour ainsi supprimer les données dormantes, inutiles ou sensibles. Sans actualisation ni partage, une donnée devient un poids mort dans votre référentiel et n’a plus de valeur. Au niveau sécurité, vous pourrez vous assurer du dispositif en place si cette donnée est particulièrement sensible,
- La localisation de la donnée pour rationnaliser votre SI et faire le ménage quant à la présence d’éventuels doublons au sein de vos référentiels,
- L’usage de la donnée qui permettra par exemple de repérer les ensembles de données utilisés dans les diverses applications de l’entreprise et repérer les sources d’erreurs présentes éventuellement dans vos rapports,
- La date de création et de mises à jour de la donnée pour contrôler notamment les droits d’accès,
- Les informations présentes dans la donnée afin d’optimiser son classement, sa protection et les conditions pour y accéder,
- Les utilisateurs de cette donnée avec un graphique de lignage de données.
Mise en place du data lineage par itération
Si vous souhaitez lancer un projet d’implémentation de data lineage au sein de votre organisation, l’adhésion et le sponsorship du comité de direction sera indispensable. Pour les convaincre, il est important de mettre en avant l’amélioration de la prise de décision, la qualité des analyses et l’optimisation du ROI en matière de fonctionnement global et d’efficacité de l’entreprise.
Le projet devra en premier lieu définir des axes d’amélioration clairs : priorités par BU/filiale, par gamme de produits ou selon des points particuliers de règlementation…
Les retours d’expérience récoltés lors de nos différentes missions data auprès de nos clients démontrent que la meilleure méthode consiste à procéder par itération :
- Commencez par cibler les ensembles des données et éléments critiques prioritaires à monitorer par le data lineage avant d’engager une seconde phase,
- Déterminez les entités ou BU ayant le plus fort impact sur votre métier et qui constituent le cœur de votre activité,
- Identifiez également les données de fait qui véhiculent l’information (volumes, montants, etc.)
La collecte des métadonnées à chaque modification des données garantit un lignage complet. L’utilisation des graphes est essentielle pour le lignage et la traçabilité des données. Ces graphes vont représenter visuellement les flux et espaces de stockages empruntés par la donnée depuis sa création par un affichage de nœuds et de relations. La totalité des outils de metadata management proposent cette fonction, parmi lesquels nous pouvons citer : Collibra, Keboola, Dremio, Kylo, Octopai…
En conclusion, le data lineage est un outil clé pour la maîtrise de vos données : il éliminera tout doute ou zone d’ombre quant à leur origine, leur localisation, leur traitement et leur utilisation finale tout en vous donnant les moyens d’atteindre une conformité optimale face aux diverses règlementations ou aux usages de votre organisation.
La rédaction vous conseille
> Stratégie data-centric : l’importance de la vision
> Data warehouse, data lake, data hub : quelles différences ?