Les communautés data science et deep learning plébiscitent les IDE open source de Microsoft et de IPython, mais aussi la bibliothèque PyTorch de Facebook ou encore les outils de dashboarding et de visualisation de Jupyter et de R. Voici le détail des nouveautés au niveau des outils data science en vogue.
VisualStudio Code : l’IDE multi langage de Microsoft
Multiplateforme et multi langage, VisualStudio Code est le nouvel IDE open source de Microsoft. Il semble aujourd’hui plébiscité par la communauté open source, malgré les réticences initiales à utiliser des outils Microsoft. D’après les retours des utilisateurs, avec VisualStudio Code, vous créez des projets pointus de manière ultra rapide grâce au développement des communautés. Les extensions sont simples à activer et elles permettent d’adapter l’IDE à votre langage et vos usages pour une utilisation 360.
Jupyter Lab va plus loin que IPython
Jupyter Lab, évolution des Jupyter Notebooks de IPython, est un IDE plébiscité pour son aspect multilanguage (grâce aux noyaux qui s’améliorent et qui sont de plus en plus nombreux) mais aussi pour ses nombreux widgets et ses outils innovants tels que l’éditeur de texte, un terminal, des modules pour pouvoir construire des schémas…
Pour la petite histoire, Jupyter est issu du projet IPython destiné à améliorer le code en python. IPython s’est étoffé au fur et à mesure du temps avec la création d’interfaces Web – des Notebooks – au format JSON permettant de travailler dans un navigateur directement, avec vue sur les résultats intermédiaires, ce qui constituait à sa création une petite révolution en matière d’interactivité. IPython reste la référence aujourd’hui et il va encore plus loin avec Jupyter Lab.
PyTorch de Facebook : au même niveau de TensorFlow ?
Pour la communauté deep learning, PyTorch est la nouvelle bibliothèque logicielle Python open source. Développée par Facebook, elle facilite la construction des réseaux de neurones profonds et elle est de plus en plus plébiscitée par la communauté, notamment pour le nombre important de modèles pré-entraînés ou encore pour la facilité d’utilisation du GPU.
PyTorch semble presque arriver au niveau d’appréciation que la référence parmi la communauté, à savoir TensorFlow et TensorFlow 2. Affaire à suivre !
Les outils de visualisation et de dashboarding devenus indispensables
Pour les data scientists, les outils de visualisation et de dashboarding deviennent indispensables. À ce titre, le projet « Voilà » de Jupyter semble sortir du lot parmi la communauté open source, entre autres pour sa grande facilité d’utilisation. « Voilà » permet de transformer un notebook Jupyter en dashboard indépendant ou en application Web indépendante. Dans le même esprit, le projet Shiny de R est également apprécié par la communauté data.
Les incontournables
Bien sûr, ces nouveautés ne font pas oublier les incontournables du data scientist. Citons en vrac :
- SAS, langage de programmation pionnier en matière d’exploitation de donnée issues de n’importe quelle source
- Apache Spark, moteur de traitement de données en gros volume, également célèbre pour sa bibliothèque d’algorithmes destinés aux actions répétitives (mise en clusters, régression, classification…)
- RapidMiner pour l’exploration des données et les analyses prédictives, apprentissage automatique, analyses de textes sans programmation informatique
- Knime, outil d’analyses de données en open source avec génération de rapports ou encore modélisation de données par programmation visuelle
- sans oublier Excel, l’incontournable du data scientist, encore et toujours plébiscité pour son efficacité et sa grande facilité d’utilisation