La data constitue une chaîne de valeur à elle seule. Sur l’ensemble de son cycle de vie et dans tous les aspects de son exploitation, son impact sur l’activité des organisations ne cesse de grandir. Volet primordial de votre stratégie de Data Gouvernance, la gestion de la qualité de vos données nécessitera un engagement constant ainsi que la mise en place d’une organisation data-centric.
Que ce soit pour la réussite de votre stratégie globale, de vos cas d’usage complexes ou celle des activités opérationnelles récurrentes, la qualité des données est critique par essence. Harvard Business Review estimait en 2017 qu’une tâche effectuée avec une donnée erronée engageait un coût 100 fois supérieur à celui d’une tâche réalisée à partir d’une donnée initialement vérifiée et correcte.
Selon l’analyse Gartner 2020 sur les solutions de gestion de qualité des données, plus de 25 % des données critiques des plus grandes entreprises sont erronées, au point que le coût moyen d’une mauvaise qualité des données pourrait s’élever à 11M€ par an pour les organisations. Les répercussions économiques, positives ou négatives, sont donc à considérer avec la plus grande attention.
1. Comment apprécier la qualité d’une donnée ?
La qualité d’une donnée se mesure à travers ses caractéristiques intrinsèques, qu’elles soient internes ou externes à l’entreprise. Nous pouvons citer l’exactitude, l’exhaustivité, la cohérence, la validité, l’actualité, l’intégrité, la clarté ou même la sécurité de la donnée.
La qualité des données peut être dégradée à deux niveaux. Tout d’abord au niveau de la description des données avec, par exemple, des conflits entre noms d’objets ou des imprécisions sur la définition des objets. L’autre niveau est celui de la donnée en elle-même : valeurs nulles, doublons, valeurs anormales, données obsolètes…
La définition d’une donnée de mauvaise qualité :
- Inexacte : informations manquantes, incomplètes, chiffres faux, fautes d’orthographes…
- Non-conforme : par sa nature ou sa forme, la donnée ne respecte pas la législation ou les normes en vigueur.
- Non-contrôlée : un suivi insuffisant est porté sur la donnée qui peut doublonner avec une autre ou bien se dégrader avec le temps.
- Non-sécurisée ou non-fiable : si aucun contrôle n’est appliqué, les données deviennent des cibles pour le piratage de par leur vulnérabilité.
- Statique : les données qui ne sont pas actualisées deviennent obsolètes et perdent leur utilité.
- Dormante : sans actualisation ni partage, une donnée devient un poids mort dans votre référentiel et n’a plus de valeur.
Conscientes de ces écueils à éviter, la majorité des entreprises a déjà̀ essayé de mettre en place un processus de gestion des données embarquant des bonnes pratiques et des techniques de mesure et de contrôle en qualité des données.
Cependant, ces processus de gestion de données demeurent souvent cloisonnés, respectant les silos d’organisation existants et ne sont pas transverses au fonctionnement des entreprises. Seule une démarche organisationnelle peut améliorer la qualité des données, en adaptant les investissements aux enjeux business liés à ces questions de qualité.
Cette démarche repose sur 4 piliers :
- la stratégie data,
- les processus,
- les collaborateurs,
- la supervision / l’amélioration continue.
Le processus de gestion de la qualité des données devra être itératif en s’appuyant sur une mise à niveau de la qualité des données « by design » vers un niveau de qualité standard défini, dans la stratégie data. Il faudra donc définir des processus de prévention de la non-qualité en amont ainsi que des processus de remédiation des anomalies en aval, sans oublier des contrôles de l’intégrité des données.
En somme, cette approche implique davantage de planification dans votre gestion de la qualité des données. Sans cela, la valeur de votre patrimoine de données va diminuer et cela impactera vos activités opérationnelles.
2. Les étapes du processus de gestion de la qualité des données
Quatre grandes étapes sont nécessaires à la mise en place d’un processus efficace de gestion de la qualité des données :
- Définir les données, leur nomenclature et leur modèle de gestion.
- Évaluer la qualité des données en adéquation avec les attentes métiers.
- Mesurer l’impact de la non-qualité des données sur les processus de l’entreprise.
- Améliorer la qualité des données via les processus d’acquisition et de mise à jour des données.
A cet effet, le data linéage aidera à maintenir la qualité des données dans la durée, en organisant la distinction entre processus fournisseurs et consommateurs. Il s’agit d’une cartographie de la donnée, véritable atout de la stratégie Data, qui assure la maîtrise des risques et génère des gains opérationnels.
Le data linéage va renseigner sur l’origine, les traitements successifs appliqués et les différents usages finaux appliqués à une même donnée. La donnée pourra donc être tracée et son exactitude pourra être justifiée. Il s’agit du pilier de la stratégie de qualité des données.
3. Qui sont les garants de la qualité des données ?
3 rôles clés sont à définir dans votre organisation pour garantir la mise en œuvre de la qualité des données, conformément aux enjeux de l’entreprise et aux besoins d’exploitation par les métiers :
Le Chief Data Officer
Le Chief Data Officer (CDO) définit les règles de gouvernance, suit la mise en œuvre et coordonne l’ensemble des activités de Data Management.
Le rôle du CDO :
- Développer et maintenir une stratégie data,
- Organiser la gouvernance des données,
- Définir et promouvoir le modèle de données d’entreprise,
- Sponsoriser les projets et les services de gestion des données,
- Communiquer et promouvoir les politiques, les standards et les procédures de gestion des données,
- Superviser et coordonner les activités de gestion des données,
- Suivre les coûts liés à la gestion des données et proposer des optimisations.
Le Data Management Executive
Le Data Management Executive (DME) organise les services de gestion des données, en cherchant à développer le partage et la ré-utilisation pour plus d’efficacité et de cohérence.
Ses missions consistent à :
- Définir et mettre en œuvre des architectures de données répondant aux besoins métiers,
- Définir et maintenir un cadre de mutualisation des services transverses liés aux données,
- Coordonner et piloter les projets d’évolution de l’architecture des données,
- Suivre les coûts liés à la gestion des données et proposer des optimisations,
- Garantir la mise en œuvre dans le SI des contrôles permettant le respect des exigences de qualité et des contraintes réglementaires.
Le Data Steward
Le Data Steward (par famille de données) décrit les besoins de gestion des données dont il a la charge en fonction des usages. Il suit la mise en œuvre et veille à délivrer des données de juste qualité.
Son rôle consiste à :
- Comprendre les processus liés à la collecte de la donnée et à sa consommation,
- Recenser les besoins et les exigences relatifs aux données, les hiérarchiser, et proposer des solutions / services en coordination avec le DME,
- Mettre en œuvre les bonnes pratiques de gestion des données en coordination avec le CDO,
- Gérer et résoudre les problèmes liés aux données,
- Suivre les coûts liés au Data Management sur son périmètre et proposer des optimisations.
4. Choisir son outil de gestion de la qualité des données
Les règles de mise en qualité sont bien sûr propres à chaque métier mais elles doivent obéir aux grands principes de la stratégie data et aux processus qui pérennisent les travaux de mise en qualité.
D’après l’expérience tirée de nos missions chez nos clients, le développement en interne d’une solution de gestion de la qualité de données n’est pas la voie la plus efficace ni la plus rentable. En effet, les fonctionnalités à implémenter sont nombreuses et compliquées à maintenir. Il est préférable de se tourner vers les produits proposés par des éditeurs de logiciel spécialistes en la matière.
Selon le rapport d’étude MarketsandMarkets™ autour du marché des outils de qualité des données, le paysage concurrentiel est dominé à 90% par 4 outils : Talend, Informatica, Collibra, Ab Initio.
Le choix d’un outil de gestion de la qualité des données nécessite de cartographier au préalable les usages et fonctionnalités à couvrir par la solution, puis d’évaluer les critères de choix : richesse et pertinence des fonctionnalités, prix, pérennité de la solution, expérience utilisateur, intégration dans le SI, formation, reporting qualité…
Nous souhaitons par conséquent insister sur le fait que les outils ne sont pas une fin en soi. Seuls les référentiels de contrôle et l’évaluation de la qualité le sont.
> À LIRE AUSSI : Comment structurer une gouvernance des données efficace ?
5. Dispositif de maintien de la qualité des données
Le maintien de la qualité des données nécessite la mise en œuvre de bons KPIs pour mesurer :
- des critères intrinsèques aux données elles-mêmes,
- des critères de services liés à l’utilisation de ces données,
- des critères de sécurité liés à l’ensemble du dispositif de gestion des données.
En complément de la solution de gestion de la qualité des données, la mise en place d’une gouvernance documentée est primordiale pour la réussite et le maintien d’un projet de qualité des données : réalisation de documentations, de politiques, de standards et de processus définies par le CDO.
Enfin, au-delà des processus et des outils, la sensibilisation et la montée en compétences des équipes impliquées dans le processus de gestion de la qualité des données doivent être intégrées à la stratégie de conduite du changement. La confiance entre les équipes ainsi que l’implication et la formation de chaque partie prenante sont primordiales.
La qualité des données ne doit pas être une préoccupation des seules équipes Data ou IT. Elle doit être l’affaire de tous !
Par Abdelaziz Joudar
Président chez DataValue Consulting
La rédaction vous conseille
> Data-centric company : stratégie et retour d’expérience de Faurecia