Microsoft Data Platform : panorama de la plateforme de données Microsoft

Oct 6, 2022 | Archi/Big Data

Depuis plusieurs années, la gestion des données devient une priorité vitale pour les entreprises qui se mettent en ordre de marche pour transformer leurs processus, leurs systèmes et leurs pratiques. On observe une volonté forte de faire évoluer les systèmes d’information jusqu’alors cloisonnés et limitants, afin de les rendre plus souples et orientés vers les usages. Cette prise de conscience couplée à la maturité des solutions du marché fait émerger une nouvelle génération de plateformes de données.

Une plateforme data, ou plateforme de données, est une solution complète pour la collecte, le traitement, le stockage, la transformation, l’analyse et la valorisation des données. Les plateformes de données nouvelle génération offrent un environnement technologique unifié pour aider concrètement la DSI à déployer des cas d’usage en réponse aux besoins des utilisateurs de l’entreprise.

Nouveau call-to-action

Microsoft Data Platform : les modes de collecte et de stockage des données

La plateforme de données de Microsoft, ou Microsoft Data Platform, embarque un ensemble de solutions applicatives basé sur la plateforme cloud Azure. La mise en place de cette plateforme de données donne l’avantage de centraliser la gestion de la donnée au sein d’un environnement unique.

schema-panorama-plateforme-donnees-microsoft

La plateforme de données de Microsoft permet de s’affranchir de la complexité des systèmes, en connectant facilement toutes les sources de données hétérogènes, structurées et non structurées, qu’elles proviennent d’un environnement cloud ou on-premise.

On peut donc collecter les données externes (IoT, log de machines, streaming de données, données provenant des réseaux sociaux…) et les données internes provenant des Business Apps (CRM, ERP, SIRH, EPM…).

Il est possible d’ingérer les données à travers plusieurs modes d’intégration :

  • Par Azure Data Factory permettant d’intégrer et stocker les données brutes de manière classique,
  • Par stream d’ingestion permettant de récupérer les données via différents hubs (event, IoT, Kafka sur Azure ou même des données non structurées ou logs en temps-réel qui impliquent un traitement particulier).

Microsoft Data Platform : le traitement et l’analyse des données

Les données structurées et non structurées sont ensuite stockées dans le lac de données Azure Data lake Storage. Les données sont alors mises à disposition des équipes à des fins d’analyse et de traitement.

Plusieurs techniques analytiques peuvent être utilisées par les entreprises selon leur degré de maturité : l’analytique descriptive, l’analytique diagnostique, l’analytique prédictive et l’analytique prescriptive.

Azure Synapse Analytics propose des services intégrés d’entreposage, d’intégration et de transformation des données permettant de raccourcir les délais d’obtention d’analyse.

Ainsi, les données peuvent être facilement transformées dans un format décisionnel puis exposées dans une solution de data visualisation, comme PowerBI, qui consolide les données dans des tableaux de bord permettant aux directions métiers de comprendre le passé pour piloter l’activité.

Pour aller plus loin dans l’exploration des données, Azure Synapse Analytics s’intègre aux solutions de Big Data et d’Intelligence Artificielle comme Azure Machine Learning, Azure Databricks ou Azure Data Explorer. Ces solutions fournissent des fonctionnalités prédictives qui permettent d’exposer la donnée de manière plus avancée.

> À LIRE AUSSI : Les services Microsoft pour la data science : ce qu’en disent les utilisateurs

Microsoft Data Platform : les points de vigilance avant de démarrer son projet

En tant que partenaire technologique Microsoft et spécialiste de la gestion des données, DataValue Consulting conseille régulièrement ses clients sur les arbitrages à réaliser en matière de plateforme de données.

Pour éclaircir sa feuille de route et optimiser ses investissements, il est pertinent de se poser plusieurs questionnements en amont de son projet d’intégration d’une plateforme de données Microsoft. Nous vous présentons ci-dessous quelques-uns de ces points de vigilance.

Azure Synapse versus Azure Databricks

La capacité à exploiter le Big Data pour générer des insights est un différenciant de taille pour les entreprises. Microsoft et Databricks proposent chacun une plateforme analytique qui intègre des fonctionnalités d’entreposage, de transformation et d’analyse avancée.

Mais quelles sont les différences entre ces deux solutions ? Faut-il privilégier le développement autour de PySpark avec Azure Synapse, ou favoriser la technologie R avec Databricks ? Quelles facilités d’interface avec les différentes solutions de restitution et d’analyse ?

Pour bien appréhender les différences et les bénéfices de ces deux solutions, il est essentiel de prendre en considération la maturité de son organisation en matière de données. Il est intéressant de mener des ateliers de cadrage avec les directions métiers lors de l’élaboration de la feuille de route pour évaluer ce genre de cas d’usage.

Favoriser une approche par use case pour optimiser la plateforme de données

Il est important de favoriser une approche par use case qui permettra d’élargir progressivement les capacités de la plateforme Azure tout en limitant les coûts. Pour cela, il est important de suivre une feuille de route claire qui permet d’anticiper les besoins et les investissements à venir.

Beaucoup d’entreprises commettent l’erreur d’investir sur une plateforme surdimensionnée au démarrage, ou au contraire de se limiter à un périmètre trop faible, ce qui fragilise le déroulement des projets.

Il est par exemple possible de démarrer la génération de pipeline de données avec Azure Data Factory, puis d’élargir la charge de travail en exploitant Azure Data Lake Storage Gen1, avant d’upgrader vers Azure Data Lake Storage Gen2, etc. Autant de scénarios qu’il faut évaluer et anticiper pour garantir une exploitation optimale de la plateforme.

> À LIRE AUSSI : Cas d’usage Albéa, concevoir une plateforme sous environnement Microsoft Azure.

Performance de PowerBI : connexion directe versus importation de données

Il existe plusieurs manières de se connecter aux sources de données dans PowerBI. On peut se connecter directement aux données sources pour travailler en temps réel, ou privilégier une importation des données maîtrisée. Contrairement à la connexion directe limitée à une source de données, l’import de données offre une plus grande latitude en matière d’exploitation des données différentes.

Dans quel cas privilégier la connexion directe (source multidimensionnelle comme SAP BW, SAP HANA, etc) ? Quelles sont les contraintes et les avantages de chacun des modes d’intégration ?

Afin d’anticiper les problématiques de performance de PowerBI, il est essentiel d’anticiper les besoins en matière d’usage et de volumétrie au démarrage du projet.

Azure Analytics Services : tabular versus multidimensionnel

Il existe plusieurs modes d’exploitation des données dans la plateforme de données Microsoft. Il est possible d’utiliser le mode tabular qui permet de stocker les données in-memory pour avoir des reportings plus optimisés aux temps de réponse plus rapides, ou le mode classique multidimensionnel qui permet de forer la donnée de manière plus avancée. Il est important d’évaluer les attentes en matière de restitution des données pour pouvoir arbitrer sur la meilleure méthode à appliquer.

Refaï E Khattabi

 

Par Refaï El Khattabi
Directeur BU Data, chez DataValue Consulting

Livre Blanc

Mise en œuvre d'une stratégie 
de qualité des données 

Livre Blanc

Feuille de route d'une stratégie
de Data Management 

Baromètre annuel de la data

Les priorités des décideurs
data en 2022 

Share This