Les services Microsoft pour la data science : ce qu’en disent les utilisateurs

Juin 2, 2022 | IA/Data Science

Microsoft propose un véritable catalogue d’outils et de services à destination des data scientist. Afin d’y voir plus clair, nous vous proposons cette synthèse de retours des utilisateurs couplés aux commentaires du cabinet Gartner à propos de ML Services et ML ServerAzure Machine Learning StudioAzure DatabricksAzure Function Apps et des Cognitives Services de Microsoft.

De R Services à ML Services et ML Server

Depuis le rachat de Revolution Analytics par Microsoft en 2015, la librairie d’algorithmes de RevoScaleR intègre la base de données SQL Server comme nouveau service proposé (R Services). L’objectif est de pouvoir encapsuler du code R dans les scripts T-SQL (approche in DataBase Analytics).

Il apparaît que ce cocktail a tendance à laisser perplexes les professionnels qui peinent à trouver le bon choix d’architecture. La solution suggérée consiste à utiliser le moteur d’exécution du code avec la déclinaison R Server.

Depuis, Microsoft a intégré Python à ses langages disponibles et a renommé les deux outils « ML Services » et « ML Server ». Il est à noter qu’intégrer un tel langage marque la volonté de Microsoft de s’ancrer sur le marché de la data science.

Azure Machine Learning Studio

Azure Machine Learning Studio est l’un des services historiques de Microsoft. Il constitue, selon Gartner, l’un des outils de machine learning les plus faciles à prendre en main, allant de la connexion de données sources jusqu’à l’analyse prédictive sans avoir à coder. Toutefois, les professionnels de la data recommandent du développement en Python ou en R pour obtenir des algorithmes réellement efficaces (choix des données, nettoyage, transformation).

Azure Machine Learning Studio a donc de réels atouts pour se former, s’entraîner et développer un service Web en très peu de temps, mais il trouvera rapidement ses limites. De plus, il est impossible d’exporter les pipelines pour une exécution locale ou dans un autre environnement, ce qui constitue un réel frein à une utilisation poussée dans le cadre professionnel.

Azure Databricks

En 2017, Microsoft a noué un partenariat avec Databricks (entreprise fondée par les créateurs d’Apache Spark) pour proposer le service dénommé aujourd’hui Azure Databricks sur le Cloud Microsoft. Avec ce service, l’utilisateur travaille via des notebooks (Jupyter) avec le langage Scala, Python ou R pour définir le type et le nombre de machines virtuelles qui constitueront les nœuds. L’autoscalabilité du nombre de nœuds est une fonctionnalité applaudie par les utilisateurs. Un autre avantage est la mise en pause du cluster passé un délai choisi en amont.

Azure Function Apps

Azure Function Apps est une solution Python jugée très simple d’utilisation, notamment pour lancer du code Python quand les sources sont sur un stockage Azure. De même, l’ajout de librairies supplémentaires est facilité par une connexion à distance et le paiement n’a lieu qu’à l’exécution du code. Comme inconvénient, les professionnels estiment qu’il est peu probable de pouvoir un jour utiliser R au sein de ce service.

Azure Cognitives Services de Microsoft

Enfin, les Cognitives Services de Microsoft permettent d’accéder à une vaste quantité de données pour pouvoir entraîner des algorithmes de deep learning, notamment dans le cadre du traitement de l’image, du texte, de la vidéo ou du son (opération de vision, speech to texte, text to speech…). Le service est payant (coût à l’interrogation), mais le prix demeure attractif au vu de la masse de travail que l’entraînement engendrerait sans passer par un Cloud public fourni en données.

Conclusion

En conclusion, nous pouvons dire que la communauté data science est plutôt satisfaite des outils et services de Microsoft, malgré une certaine réticence rencontrée auparavant, notamment pour les services open source. Microsoft propose des outils faciles à mettre en œuvre. Même s’ils connaissent des limites, vous pouvez les explorer, au minimum pour vous former ou vous entraîner.

Livre Blanc

Mise en œuvre d'une stratégie 
de qualité des données 

Livre Blanc

Feuille de route d'une stratégie
de Data Management 

Baromètre annuel de la data

Les priorités des décideurs
data en 2022 

Share This