Votre patrimoine de données, qu’il soit structuré ou non, est un actif qui nécessite d’être protégé et valorisé. Techniques d’amélioration, KPI’s, outils dédiés, modèles d’organisation… : quelle démarche pour assurer la mise en qualité des données ?
La qualité des données, une priorité forte en 2023
Notre dernier baromètre sur « Les priorités data des décideurs en 2023 », menée auprès d’un panel de 70 décideurs, nous démontre que si la qualité des données reste une priorité en 2023, ce sujet est difficile à mettre en place au sein des organisations.
En effet, en 2023, la mauvaise qualité des données arrive en 3ème position dans les freins à la réussite de la stratégie data. Et nous pouvons noter une augmentation de 5 points par rapport à 2022.
Par ailleurs, les réglementations, les normes et la conformité nécessaire à avoir pour certaines organisations publiques accentuent d’autant plus ce fort enjeu de qualité des données. Enfin, il est important de noter que la qualité des décisions dépend fortement de la qualité des données.
Pourquoi faut-il améliorer la qualité des données ?
Une mauvaise qualité de données a un impact certain pour les organisations. Parmi les risques potentiels liés à des données de faible qualité, nous pouvons noter :
- Une prise de décision hasardeuse,
- Une productivité en baisse,
- Un manque de conformité RGPD,
- Une augmentation des coûts financiers,
- Une perte de crédibilité et une réputation écornée.
À contrario, une démarche de mise en qualité des données apportera de nombreux avantages et s’inscrira dans un cercle vertueux. En effet, l’amélioration des processus métiers par une meilleure qualité des données permettra d’augmenter la productivité à travers un meilleur partage des informations et ainsi les prises de décision seront plus éclairées.
Qu’est-ce que la qualité des données ?
Une donnée dite de qualité est une donnée utile, qui répond aux usages que l’on attend d’elle. Autrement dit, c’est la mesure de l’état des données fondée sur divers attributs pour avoir des données exemptes d’erreurs, pertinentes et qui peuvent être facilement utilisées pour prendre des décisions éclairées. Pour savoir si une donnée est utile, il faut pouvoir la mesurer à travers des indicateurs clés (complétude, exactitude, respect des normes…) pour pouvoir identifier l’état de cette dernière.
Les 4 catégories de la qualité des données
La donnée est un produit brut qui une fois raffiné pourra indiquer un degré de qualité répondant ou non aux critères d’exigence (attributs) qui peuvent être catégorisés en 4 typologies :
- La qualité technique : regroupe les attributs liés à la structure et à la qualité des données, telles que l’exactitude, la cohérence, la complétude et l’intégrité.
- La qualité sémantique : regroupe les attributs liés à la signification et à la pertinence des données, telles que la pertinence, la clarté et la conformité.
- La qualité opérationnelle : regroupe les attributs liés à la gestion et à l’utilisation des données, telles que l’accessibilité, la fiabilité et la mise à jour des données.
- La qualité organisationnelle : regroupe les attributs liés à la gouvernance et à la culture de l’organisation en matière de gestion des données, telles que la stratégie de données, les politiques de sécurité et les normes.
Ces regroupements utilisés sur le marché sont commun à de nombreuses organisations. À savoir que nous retrouvons ces quatre problématiques au sein de chaque structure.
Comment mesurer la qualité des données ?
Pour mesurer la qualité des données, il faut identifier des règles de calcul qu’il faudra associer à vos attributs. Voici une liste de certaines mesures que DataValue Consulting met en avant chez ses clients :
Attribut | Description | Mesure |
Cohérence | Dans les ensembles de données corrélées, il ne devrait pas y avoir d’incohérences, telles que des duplications, des contradictions. Par exemple, il devrait être impossible d’avoir deux identifiants similaires pour deux objets différents. | Nombre d’incohérences. |
Précision | Les données précises sont celles qui reflètent la réalité avec le moins d’erreurs possible. Cela mesure l’exactitude des données. | Ratio données/ erreurs. |
Complétude | Mesure la quantité de données manquantes par rapport aux données attendues. Est-ce que les informations sont complètes ? Les champs à renseigner le sont-ils ? D’autres champs utiles pourraient-ils être ajoutés ? | Nombre de valeur manquante. |
Auditabilité | Mesure la conformité des données aux règles ou aux normes de l’entreprise ou de l’industrie. Les données cohérentes sont celles qui sont conformes aux attentes. | Taux de conformité réglementaire. |
Pertinence | Mesure la pertinence des données par rapport à l’objectif pour lequel elles ont été collectées. Les données pertinentes sont celles qui sont utiles pour atteindre l’objectif. Est-ce que les informations stockées sont d’une quelconque utilité pour l’organisation ? | Nombre de données adaptées à leur utilisation prévue. |
Exactitude | Les données doivent être correctes et précises. | Ratio données/ erreurs. |
Actualité | Les données doivent être à jour et refléter les informations les plus récentes. Cela mesure la fraîcheur des données. Les données à jour sont celles qui reflètent les dernières informations disponibles. | Nombre d’enregistrements avec des modifications différées. |
Unicité | L’enregistrement de données avec des détails spécifiques n’apparaît qu’une seule fois. | Nombre de doublons relevés. |
Cette liste peut s’adapter à de nombreux cas d’usage : une administration qui doit suivre une réglementation stricte, un service marketing qui doit mesurer la complétude des informations de son CRM pour la réussite de ses futures campagnes… Par ailleurs, des seuils peuvent être utilisés pour déterminer si les données son acceptables ou non. Ces seuils seront nécessaire dans le cadre d’une stratégie de gouvernance des données.
Cette démarche de mesure de la qualité des données s’adapte à tout type de secteur et de données (plus ou moins sensibles) : collectivité, secteur bancaire, milieu pharmaceutique… Par ailleurs, c’est un chantier qui doit être mené en continu pour s’adapter aux évolutions de l’organisation (processus métier, organisation, stratégie…).
Mauvaise qualité des données : quelles erreurs sont souvent rencontrées ?
Voici ci-après une liste des erreurs en matière de qualité des données rencontrées chez les clients de DataValue Consulting :
- Inexacte : informations manquantes, incomplètes, chiffres faux, fautes d’orthographes…
- Non-conforme : donnée ne respectant pas la législation ou les normes en vigueur.
- Non-contrôlée : un suivi insuffisant est porté, des doublons sont crées.
- Non-sécurisée : si aucun contrôle n’est appliqué, les données sensibles deviennent des cibles pour le piratage de par leur vulnérabilité.
- Statique : les données qui ne sont pas actualisées deviennent obsolètes et perdent leur utilité.
- Dormante : sans actualisation ni partage, une donnée devient un poids mort dans le référentiel et n’a plus de valeur.
L’ensemble de ces erreurs engendrent des impacts financiers conséquents. Il est donc important et nécessaire de mettre en place des éléments de contrôle pour assurer une qualité des données dans le temps.
Concernant les données liées à des législations de type RGPD, il faut s’assurer des méthodes de diffusion pour rester conforme à la réglementation en vigueur.
Quelle démarche pour la qualité des données ?
La démarche de qualité de données est un processus itératif qui vise à garantir la qualité des données dans une organisation. Elle implique plusieurs étapes clés :
Ce processus itératif va permettre d’avoir une amélioration continue de la qualité des données. Il faut toujours associer la donnée par rapport à son usage. Dans l’étape d’évaluation de la donnée, l’objectif n’est pas d’adresser l’ensemble du système d’information, mais d’adresser certains périmètres en lien avec les usages définis au préalable. Une fois la démarche validée sur ce premier périmètre, il sera possible de l’industrialiser.
Les clés pour réussir sa démarche de qualité des données
Voici 5 prérequis pour vous aider à mieux appréhender ce chantier de qualité des données :
- L’amélioration de la qualité des données est avant tout une démarche organisationnelle qui vise à adapter les investissements aux enjeux de qualité.
- C’est également une démarche incrémentale : par sources de données, domaines métiers ou par ensembles de domaines fonctionnels. Il n’est pas possible d’adresser tous les sujets en même temps, il faut associer chaque chantier à un usage et à un périmètre.
- La démarche cible devrait combiner un contrôle a posteriori avec une démarche de production de qualité au niveau des sources.
- L’outillage permet d’accélérer le chantier de mis en qualité : les solutions servent de support à l’évolution de la qualité, en référentiel de contrôle, à l’accélération du plan de remédiation et de type (profilage de données/ nettoyage de données/ normalisation de données/ de déduplication de données). Le plus important restant la mise en place des processus qui pérennisent les travaux.
- La qualité des données est un sujet transverse, des producteurs aux consommateurs via des contrats d’usage (À quel niveau puis-je utiliser mes données ? Quels sont les éléments nécessaire pour pouvoir exploiter les données ?
Méthodologie de redressement de la qualité des données
La première étape consiste à identifier le périmètre d’action en définissant les données cibles. Il faudra s’attarder sur les données qui ont un fort enjeu pour le périmètre. Puis vient l’étape de cartographie des données. Cette partie technique permet d’étudier le contenu des données. En identifiant les processus de gestion, il sera possible d’identifier dans la chaîne de valeur les problèmes de qualité des données. L’objectif de cette étape est de décrire formellement les règles qui régissent et organisent les données. Enfin, il faudra analyser les données statiquement et dynamiquement afin d’en améliorer la structure. Puis, il faut établir une stratégie d’amélioration. C’est la partie la plus sensible étant donné qu’elle implique un changement organisationnel. Le plan d’action choisit permettra d’exécuter les recommandations et les méthodes de correction.