Qu’est-ce que le Data Mesh ?
Le data mesh est un concept relativement nouveau dans le domaine de l’ingénierie des données. Il a été introduit par Zhamak Dehghani, une architecte de données, en 2019.
Le Data Mesh se définit comme un modèle d’architecture décentralisé, dans lequel la responsabilité de la gestion des données est répartie à travers toute l’organisation plutôt que centralisée au sein d’une seule équipe ou d’un seul département. Cette nouvelle architecture répond aux deux problématiques majeures rencontrées dans les organisations : la qualité des données et leur gouvernance.
Cette nouvelle approche vise à responsabiliser davantage les équipes dans l’exploitation des données. En effet, dans un modèle de Data Mesh, chaque équipe de l’organisation est responsable de la gestion de ses propres données, y compris de la collecte, du stockage, de la qualité et de la sécurité des données. Chaque équipe est également responsable de la publication de ses données dans un catalogue de données centralisé, qui permet à d’autres équipes de découvrir et d’accéder aux données dont elles ont besoin pour leur propre travail.
Le Data Mesh propose également une approche de gouvernance des données plus distribuée, dans laquelle les équipes travaillent ensemble pour définir des normes et des pratiques communes pour la gestion des données, plutôt que de s’en remettre à une seule équipe ou à une seule personne pour définir ces normes.
En somme, le Data Mesh se définit comme un réseau maillé de données interconnectées, où chaque maille du réseau représente un composant data. Ces derniers sont exposés aux consommateurs de données à travers des interfaces normalisées pour une découverte et un accès facilité.
Le modèle de Data Mesh repose sur quatre principes fondamentaux :
- Le propriétaire du domaine,
- Le produit donnée ou data product,
- La plateforme de données en libre-service,
- La gouvernance des données fédérée.
Le propriétaire du domaine dans l’architecture Data Mesh
Dans l’architecture Data Mesh, le propriétaire de domaine est une personne ou une équipe qui est responsable de la gestion d’un domaine de données spécifique.
À savoir qu’un domaine de données peut être défini comme un ensemble cohérent de données qui est utilisé pour résoudre un problème métier particulier ou soutenir une fonction spécifique. Il peut y avoir plusieurs niveaux de granularité dans les domaines métiers. DataValue Consulting distingue les capacités métiers principaux et les sous-capacités métiers. Il faut s’appuyer sur les capacités métiers (invariants) qui ont été définis auparavant. Cela permet de découper et d’identifier les différents domaines sans multiplier les découpages. À noter que si le SI est structuré sous forme d’architecture d’entreprise, les domaines métier sont déjà existants.
Dans un Data Mesh, la donnée est orientée utilisateur et métier. Le responsable de domaines doit être celui qui connait le mieux les données métiers, qui sera capable d’identifier une trajectoire d’usages innovants, de valoriser ses données et de piloter la transformation des données en Data Product.
Le propriétaire de domaine est responsable de toutes les tâches liées à la gestion des données dans son domaine, y compris la collecte, le stockage, la qualité, la sécurité et la publication des données. Il doit garantir que les données dans son domaine sont correctes, complètes et fiables. Il est également chargé de créer des produits de données en libre-service, tels que des API, des ensembles de données et des tableaux de bord, qui peuvent être facilement découverts et utilisés par d’autres équipes de l’organisation. Il doit avoir une vision à long terme sur les usages potentiels de son périmètre de données.
Le concept de propriétaire de domaine dans l’architecture Data Mesh est important car il garantit une responsabilité claire pour la qualité et l’exactitude des données. En ayant des propriétaires de domaine dédiés, chaque domaine de données est géré de manière autonome, ce qui permet une plus grande agilité et une prise de décision plus rapide en matière de gestion des données.
Le produit de donnée, clé de l’architecture Data Mesh
Toute donnée doit être considérée comme un produit. Or, souvent, quand on parle de données, on se focalise sur les aspects techniques tels que le modèle de données, le NCD, le schéma, les tables et les colonnes.
Or, il faut également tenir compte des perspectives des utilisateurs métier. Il faut prendre également en compte l’expérience d’usage, comme l’expérience orientée utilisateur, et pas uniquement orientée IT.
Les produits de données doivent être conçus pour être utilisés de manière autonome et en libre-service, ce qui signifie que les équipes peuvent découvrir, utiliser et comprendre les données sans avoir à faire appel aux experts techniques ou aux propriétaires de domaine pour obtenir de l’aide.
Les produits de données doivent également être standardisés, documentés et faciles à utiliser. Ils doivent être cohérents dans leur structure et leur format, et ils doivent être accompagnés de documentation claire et précise pour aider les utilisateurs à comprendre ce que contiennent les données et comment les utiliser efficacement.
En somme, un Data Product est la représentation d’une donnée qui peut être facilement consommée par les autres équipes de l’organisation. Les produits de données peuvent prendre la forme d’API, de jeux de données, de tableaux de bord, de rapports ou de modèles qui fournit une valeur pour tous les utilisateurs et plus particulièrement les utilisateurs métier.
Architecture Data Mesh : la plateforme de données en libre-service
La plateforme de données en libre-service permet aux propriétaires de domaine de gérer leurs propres domaines de données sans dépendre d’une équipe centrale de l’organisation pour fournir une assistance technique. Cette infrastructure fournit aux équipes de l’organisation des outils et des ressources pour collecter, stocker, traiter, gérer et partager les données de leur domaine de manière autonome et en libre-service.
Les équipes peuvent utiliser des outils tels que des pipelines de données, des systèmes de stockage de données, des outils de qualité de données et des outils d’analyse de données pour collecter, stocker, gérer et analyser les données de leur domaine. Ces interfaces sont standardisées afin de permettre l’interopérabilité des données. Et cette standardisation donne une garantie via une gouvernance fédérée.
La plateforme de données en libre-service doit être facile à utiliser et à configurer, avec des interfaces utilisateur intuitives et des processus automatisés pour les tâches courantes telles que l’ingestion de données, la transformation de données et la publication de produits de données. Elle doit également garantir la sécurité, la conformité et la qualité des données en utilisant des mécanismes de gouvernance des données tels que des politiques de sécurité, des règles de qualité de données et des processus de gestion des accès. Finalement, la plateforme de données est comparable à une boîte à outils en libre-service pour les métiers qui vont pouvoir utiliser les données de façon autonome.
Par ailleurs, il est important de préciser qu’il existe une frontière entre le responsable de la plateforme et le responsable de domaine. Le responsable de la plateforme ne gère pas les données et le responsable de domaine ne gère pas la plateforme de données. En effet, la plateforme technologique doit être agnostique à un domaine. Une équipe IT centrale peut avoir la responsabilité de gérer cette plateforme et de la maintenir pour un ensemble de domaines d’entreprise.
La gouvernance fédérée : finalité de l’architecture Data Mesh
La gouvernance fédérée permet aux propriétaires de domaine de prendre des décisions concernant la gouvernance de leurs propres domaines de données, telles que les politiques de sécurité, les règles de qualité de données et les processus de gestion des accès. Cependant, elle veille également à ce que les politiques de gouvernance soient cohérentes et conformes aux exigences globales de l’entreprise en matière de gouvernance des données.
Pour mettre en œuvre une gouvernance fédérée efficace, l’architecture Data Mesh utilise des mécanismes tels que des normes de qualité de données et des politiques de sécurité pour garantir que les domaines de données sont gérés de manière responsable et conforme aux normes de l’entreprise. Les propriétaires de domaine sont responsables de la gestion de leur propre domaine de données, mais ils doivent également respecter les normes et les politiques établies par l’entreprise.
Par ailleurs, dans le cadre de la gouvernance interne de l’entreprise, une équipe centrale sera chargée de fédérer et d’harmoniser les pratiques en matière de gestion des données au sein des différents domaines pour garantir une cohérence d’ensemble.
Focus sur le Data Product dans l’architecture Data Mesh
Pour qu’une donnée soit considérée comme un produit, elle doit avoir plusieurs caractéristiques clés pour garantir la meilleure expérience utilisateur possible et s’adapter à tout type de contexte.
Voici quelques-unes des propriétés d’une donnée pour qu’elle soit considérée comme un produit :
- La propriété « découverte » : la donnée doit être identifiable à travers un catalogue de données afin que les utilisateurs sachent exactement ce qu’ils utilisent.
- La propriété « adressable » : capacité d’accéder simplement à des données grâce à un identifiant unique. Pour cela, l’interface d’accès doit être documentée.
- La propriété « fiable » : la donnée doit être précise, complète, fiable et pertinente pour répondre aux besoins de l’utilisateur. C’est la capacité à évaluer la qualité des données mises à disposition.
- La propriété « définie » : la donnée doit être clairement définie à travers une documentation qui permettra de décrire et définir chaque donnée.
- La propriété « auto-description » : les informations relatives aux données doivent être auto-suffisantes afin de permettre aux utilisateurs d’être autonomes dans l’exploitation des données.
- La propriété « interopérable » : c’est la capacité à standardiser et à normer tous les produits de données afin de faciliter leur interopérabilité.. En effet, il existe une multitude de produits de données qui vont permettre de couvrir l’ensemble des données de l’entreprise. Et parfois, il faut combiner plusieurs produits pour pouvoir répondre à certains cas d’usage. Et c’est là que l’interopérabilité prend tout son sens. Elle permet de fusionner des données qui sont packagées dans plusieurs produits de données.
- La propriété « sécurité » : la donnée doit être protégée contre les accès non autorisés ou les fuites d’informations pour assurer la sécurité et la confidentialité de l’utilisateur. La sécurité doit être intégré dès la conception du produit de données.
L’ensemble de ces capacités intégrées aux données permettent de former un produit de données. À savoir qu’un Data Product pourra se sourcer sur un ou plusieurs autres Data Product.
Comment fonctionne le Data Mesh ?
Le Data Mesh est une architecture de données distribuée qui permet de gérer les données à l’échelle d’une organisation en adoptant une approche décentralisée. Cette approche est basée sur le principe de la propriété des données et de la responsabilité qui est décentralisée à travers les différents domaines métiers de l’entreprise.
Les avantages de l’architecture Data Mesh
L’architecture Data Mesh est un maillage de plusieurs domaines qui apporte une certaine souplesse contrairement à d’autres architectures comme le Data Lake.
Le Data Mesh présente plusieurs avantages pour les organisations, notamment :
- Scalabilité : l’architecture Data Mesh est conçue pour être évolutive en permettant la création de domaines de données autonomes et la mise en place de plateformes de données flexibles et évolutives. Les produits de données créés par chaque domaine sont conçus pour être facilement réutilisables par d’autres domaines, ce qui facilite la croissance et l’évolution de l’ensemble du système. Par ailleurs, le Data Mesh permet une évolutivité horizontale, c’est-à-dire que l’architecture peut être étendue en ajoutant simplement des nœuds de traitement ou de stockage, plutôt que d’ajouter des ressources plus puissantes à un nœud existant. Cela permet de répartir la charge de traitement sur plusieurs nœuds et de réduire les goulots d’étranglement qui peuvent ralentir les performances.
- Flexibilité : le Data Mesh permet une plus grande agilité pour répondre aux besoins métiers en évolution rapide. Les équipes de domaines peuvent travailler de manière autonome et itérative pour développer des produits de données rapidement et efficacement.
- Qualité des données : les équipes de domaines sont responsables de la qualité des données qu’elles gèrent, ce qui permet de garantir des données de haute qualité. Les produits de données sont bien structurés, documentés et faciles à utiliser pour les autres équipes de l’entreprise.
- Gouvernance : le Data Mesh permet une gestion responsable et efficace des données en responsabilisant les équipes de domaines pour la gestion de leurs propres données, tout en établissant des politiques et des normes pour assurer la qualité, la sécurité et la conformité des données à l’échelle de l’entreprise.
- Fédération et collaboration : le Data Mesh encourage la collaboration entre les équipes de domaines pour partager des connaissances et des compétences en matière de données. Les produits de données peuvent être partagés et réutilisés entre les équipes, ce qui favorise une culture de collaboration et de partage des connaissances.
En résumé, l’architecture Data Mesh permet une gestion plus flexible et collaborative des données au sein de l’entreprise, tout en garantissant la qualité, la sécurité et la conformité des données. Cela permet aux entreprises de mieux répondre aux besoins métiers en évolution rapide et de prendre des décisions plus éclairées basées sur des données fiables et de haute qualité.
Data Mesh vs Data Lake : comment se positionne cette architecture ?
Le Data Mesh et le Data Lake sont deux approches différentes pour la gestion de données dans une entreprise.
Le Data Mesh est une architecture décentralisée qui vise à résoudre les problèmes d’évolutivité, de responsabilisation et de gouvernance associés aux architectures centralisées comme le Data Lake. Le Data Mesh propose de construire des domaines de données autonomes, qui sont des unités indépendantes de traitement et de stockage de données, et de les connecter à travers des API standardisées. Chaque domaine est responsable de la gouvernance, de la qualité et de la sécurité de ses propres données.
En revanche, le Data Lake est une architecture centralisée qui permet à une entreprise de stocker de grandes quantités de données brutes dans un entrepôt de données commun. Les données sont collectées et stockées dans leur format brut, sans être transformées, ce qui permet aux data analystes et data scientists d’explorer et d’analyser les données en profondeur. Les données stockées dans un Data Lake peuvent être structurées, semi-structurées ou non structurées.
Le principal avantage du Data Mesh par rapport au Data Lake est sa capacité à résoudre les problèmes d’évolutivité des métiers, de responsabilisation et de gouvernance associés aux architectures centralisées. Le Data Mesh permet également une plus grande agilité en permettant la création de produits de données modulaires et réutilisables, ce qui facilite la collaboration entre les différents domaines de données de l’entreprise.
En somme, le Data Mesh et le Data Lake sont deux approches différentes pour la gestion de données dans une entreprise. Ces deux modèles d’architecture peuvent toutefois se compléter pour certains cas d’usage liés à l’innovation, à l’historisation ou à l’archivage. Le choix de l’architecture dépendra des besoins et des objectifs de l’entreprise en matière de gestion de données. Les entreprises qui recherchent une approche décentralisée pour la gestion de données et une meilleure responsabilisation des équipes de domaines peuvent trouver que le Data Mesh est une meilleure option, tandis que les entreprises qui ont besoin d’un entrepôt de données centralisé pour stocker et analyser des données brutes peuvent préférer le Data Lake.
Mise en place d’un projet Data Mesh
Le plan de mise en œuvre d’un Data Mesh se découpe en plusieurs étapes :
- Le passage à l’échelle : cette phase d’industrialisation va permettre de faire évoluer le Data Mesh en intégrant progressivement de nouveaux domaines et de nouveaux produits de données. L’idée est d’aller sur une vision domaine avec une gouvernance fédérée. Concernant le choix des domaines et des Data Product, il sera réalisé en fonction des priorités et des besoins métiers. Pendant cette phase, il faut pouvoir organiser les données de l’entreprise en domaine et identifier les équipes responsables de ces derniers. Il faudra s’assurer que les équipes ont bien les compétences pour pouvoir gérer ses données. Enfin, il faudra créer une équipe centrale chargée de fédérer les domaines et de définir les normes autour des données pour garantir une homogénéité dans les pratiques autour de la gestion des données.
- MVP « Data Product » : mise en œuvre d’un premier Data Product sous forme de MVP. Il faudra implémenter un incrément de l’architecture Data Mesh en se limitant à un ou deux Data Product. L’objectif est d’éprouver le modèle et de générer rapidement de la valeur pour les métiers. Cette phase permet également de mettre en place la gouvernance au sein du domaine pour piloter et développer les activités du Data Product. Il s’agit aussi d’identifier l’équipe data qui sera en charge du produit de données. Et enfin, cette phase sera l’occasion de sélectionner les outils et technologies nécessaire au fonctionnement du Data Mesh (plateforme de service répondant à des problématiques d’ingestion, de transformation et de mise en qualité).
- Une vision « Data » : cela consiste à prendre en compte les enjeux et objectifs de l’entreprise pour réaliser un inventaire des projets data afin d’avoir une vision globale et consolidée de l’ensemble des opportunités permises par la donnée. Le but est de pouvoir prioriser les chantiers qui sont générateur de valeur rapidement et d’identifier un périmètre de donnée qui sera candidat à une transformation en Data Product. Cette première phase est l’occasion d’acculturer les équipes sur ce nouveau concept qu’est le Data Mesh.
- L’amélioration de la maturité data : cette dernière phase consiste à suivre et à piloter la trajectoire d’adoption de la culture Data Mesh. Elle permet d’apprécier, à l’aide de plusieurs indicateurs, l’atteinte des résultats.
La mise en place d’une architecture de Data Mesh est complexe. Elle implique de nombreux aspects techniques et organisationnels. Nos experts peuvent vous aider à définir une stratégie claire pour l’adoption de cette approche, à identifier les objectifs à atteindre, à sélectionner les meilleures technologies pour répondre à vos besoins et à concevoir des systèmes de données efficaces et évolutifs.
La rédaction vous conseille
> Data Mesh Architecture : comment accélérer sa transformation data ?
> Bonnes pratiques pour intégrer sa plateforme data au SI existant