Qu’est-ce qu’un data lake ?

Nov 16, 2021 | Archi/Big Data

De plus en plus utilisés en entreprise, les data lakes ou lacs de données apportent une solution technique performante permettant le stockage de n’importe quel type de données. A travers cet article, découvrons ensemble la définition du data lake et son architecture fonctionnelle. Nous nous intéresserons par la suite aux principales différences entre un data lake et un data warehouse pour enfin conclure sur les enjeux liés à la mise en place de cette méthode de stockage.

 

Définition et architecture d’un data lake

Conceptualisé pour la première fois par James Dixon, responsable des technologies (CTO) chez Pentaho, le terme « data lake » est un référentiel de données permettant le stockage, à durée indéterminée, d’une très large quantité de données brutes, et ce dans leur format natif. Ainsi, cette méthode permet de stocker des données structurées, semi structurées et non structurées sans limite dans le temps. L’utilisateur pourra par conséquent y entreposer tous types de formats et de données ; des bases de données traditionnelles, des fichiers CSV, XML et JSON, mais aussi des e-mails, des fichiers PDF et autres documents tels que des images, fichiers audios ou vidéos ; en temps réel. Ce type de plateforme permet de s’affranchir des contraintes liées à la taille ou à la catégorie des fichiers pour un stockage en temps réel performant et peu coûteux.

Un data lake est basé sur un schéma on read, qui offre une grande flexibilité et jouit d’une architecture non hiérarchisée, contrairement à celle d’un data warehouse. Nous détaillerons ces différences par la suite mais intéressons-nous d’abord aux deux types de traitements possibles pour intégrer des données dans un data lake.

Grace à certains connecteurs spécifiques, des données issues de sources diverses telles que des bases de données, des serveurs web ou des objets connectés sont ingérées et peuvent être chargées en lot, ou en temps réel.

  • Le Batch processing (traitement par lots) : ici les traitements sont déclenchés sur demande (possibilité de les automatiser pour une exécution récurrente) et exécutent des requêtes sur des millions de lignes et sur de longues périodes.
  • Le Stream processing (traitement des flux en temps réel) : des petits lots de données sont traités en temps réel.

La structure qu’offre le data lake permet un stockage et un accès à la fois rapides et performants aux données. Une fois stockées, les données peuvent être converties sous une forme structurée pour faciliter l’analyse. Enfin, pour exploiter et valoriser ces données, on peut utiliser des outils de requêtage SQL ou autre ainsi que d’autres langages de programmation comme Python et Spark, on peut aussi faire appel à des outils de valorisation ou d’analyse de données. 

D’une manière générale, les data lakes sont implémentés sur site (On premise) et sont configurés sur un cluster de serveurs standard peu coûteux et évolutifs (pouvant être déployé sur site ou dans le cloud). Ce type de configuration permet de stocker des données pour un éventuel usage ultérieur tout en s’affranchissant de la capacité de stockage disponible. Cependant les architectures On premise pour les Datalakes ne sont plus conseillées.

D’un point de vue opérationnel, un data lake est articulé autour de deux composantes : le stockage et le traitement. Le stockage et le traitement peuvent être effectués sur site ou dans le cloud. Ainsi, un grand nombre de combinaisons est envisageable lors de la conception d’une architecture de data lakLes entreprises peuvent choisir de conserver leurs ressources sur site, de migrer leur architecture dans le cloud, d’envisager plusieurs clouds (multi-cloud), ou d’adopter une solution hybride associant plusieurs de ces options. Il n’existe pas de solution unique ou standard, mais selon les besoins, plusieurs options potentielles.

livre blanc les clés pour construire sa plateforme data

Data Lake Vs Data warehouse

Bien que philosophiquement et techniquement différents, les data lakes et data warehouses partagent un objectif commun, à savoir le stockage des données.

Ces technologies utilisent respectivement des schémas en lecture ou en écriture, principale différence entre les deux.

> À LIRE AUSSI : Data warehouse, data lake, data hub : quelles différences ?

Outre une accessibilité aux données facilitée, l’utilisation d’un data warehouse permet une simplification de l’analyse et l’exploitation des data. Etant basé sur un schéma initial défini et documenté, l’exploitation et la valorisation d’un data warehouse sont possibles pour tous types d’utilisateurs ; techniques ou non.

En revanche, la flexibilité qu’offre un data lake quant à la mise en place ou la modification des structures de données, l’adaptabilité de cet outil ainsi que la scalabilité facilitée des servers et clusters lui offre un avantage considérable face à la rigidité d’un data warehouse. Ceci s’ajoute aux performances relatives aux schémas on read- lecture– dont jouissent les data lakes.

 

Les enjeux de la mise en place d’un Data Lake

Une enquête d’Aberdeen a montré que les organisations qui ont mis en œuvre un data lake surpassent de 9 % les entreprises similaires en croissance interne de chiffre d’affaires. La mise en place d’un data lake permet l’exécution de divers types d’analyse de données ; le traitement Big Data, l’analyse en temps réel, le Machine Learning ou encore la production de tableaux de bord et de visualisations de données.

Comme nous avons pu l’évoquer dans notre article, un data lake permet de stocker des données structurées, semi ou non structurées de manière économique, et ce afin de les analyser ultérieurement.

Offrant une vision initiale d’ensemble, les data lakes offrent un espace et une méthode dans lesquels les données peuvent être stockées sans modèle, indépendamment de leur structure. Le lac de données délivre une certaine agilité pour les organisations.

Grâce au data lake, une organisation va identifier de nouvelles opportunités et pourra ainsi les saisir. Il est par exemple possible d’attirer ou de retenir de nouveaux clients via des applications de scoring ou de matching, d’accroître la productivité, d’effectuer une maintenance prédictive ou de prendre de meilleures décisions. En implémentant des data lakes, les organisations profitent d’un avantage sur la concurrence.

Aussi, le data lakes permettent une intégration rapide et efficace de nouveaux flux tels que ceux issus de l’IoT. Les mécanismes des data lakes offrent une valorisation concrète des données car cet outillage permet aux utilisateurs de s’inscrire dans une démarche et un processus de création et/ ou d’amélioration continus. En effet, l’usage et l’exploitation des données dont dispose l’entreprise sont en perpétuel renouvellement ; chaque collaborateur ayant accès au data lake de l’organisation sera libre d’explorer et d’exploiter l’ensemble des données disponibles de manière transparente pour la réalisation d’analyses de tous types. À titre d’exemple, il sera aisé pour les collaborateurs de construire des projections croisées ou encore d’identifier rapidement des variables pertinentes mais non intuitives dans l’occurrence d’un évènement ou d’un phénomène.

Toutefois, le data lake peut présenter aussi des inconvénients. Il s’agit d’une plateforme complexe à gérer et pouvant perdre en pertinence au fil du temps. Le stockage de données non structurées peut rapidement mener au chaos en cas de mauvaise gestion.

En effet, la conformité, la qualité ou encore la sécurité des données ne sont pas natives dans la structure qu’offre un data lake. Ainsi, l’accumulation de données diverses et issues de sources nombreuses peut être un véritable risque voire une menace pour les entreprises. En outre, une mauvaise utilisation des métadonnées ou des processus peut mener à ce qu’on appelle un marécage de données.

En définitive, un data lake est une solution puissante et robuste mais qui peut nuire à l’organisation si un cadre précis et strict n’est pas établi en amont. Aussi, la qualité et la fiabilité des données seront affaiblies si l’entreprise néglige la nécessité d’instaurer une gouvernance des données claire et efficace.

 

 

Par Yasmine Fasla
Consultant data senior chez DataValue Consulting 

 

La rédaction vous conseille

> Les bonnes pratiques pour assurer la qualité des données

> Mise en œuvre d’une migration de data lake on-premise vers AWS

Nos ressources

Livre Blanc

Mise en oeuvre d'une stratégie 
de qualité des données 

Livre Blanc

Feuille de route d'une stratégie
de Data Management 

Enquête Nationale

État des lieux du pilotage 
dans le secteur public en 2021 

Share This