machine learning data science kaggle

Machine Learning et Data Science : les meilleurs frameworks et algorithmes en 2021 selon Kaggle

Kaggle dévoile les principales tendances et la liste des outils et technologies les plus utilisés dans le domaine de la Data Science et du Machine Learning, suite à un vaste sondage mené auprès de 2000 Data Scientists.

La science des données est de plus en plus utilisée, mais qui sont vraiment les professionnels de ce domaine ? Et quelles sont les technologies et les outils qu’ils utilisent et préfèrent ? Autant de questions que peuvent se poser les débutants ou aspirants Data Scientists.

Afin d’identifier les principales tendances du Machine Learning et de la Data Science, Kaggle a mené une enquête de grande envergure. La célèbre plateforme dédiée à la science des données a profité de sa popularité pour conduire un sondage auprès de plus de 2000 Data Scientists, pendant trois semaines en octobre 2020.

À l’issue de cette vaste étude, Kaggle publie aujourd’hui le rapport  » State of Machine Learning and Data Science  » pour la quatrième année consécutive. On y découvre plusieurs chiffres clés sur la démographie des Data Scientists et sur les technologies utilisées par ces experts.

Ainsi, la grande majorité des Data Scientists sont âgés de moins de 35 ans. Deux tiers d’entre eux ont un diplôme, et la plupart ont moins de 10 ans d’expérience en codage informatique et moins de trois ans d’expérience en Machine Learning.

Les IDE, frameworks et algorithmes Machine Learning et Data Science les plus populaires

L’environnement de développement le plus populaire parmi les Data Scientists est Jupyter, utilisé par 74% des interrogés. En seconde position, Visual Studio est utilisé par 43% des sondés, ce qui représente une hausse de 30% par rapport à l’an dernier. De leur côté, PyCharm et RStudio sont utilisés par 30% des participants.

Concernant les frameworks et bibliothèques de Data Science, 80% des interrogés utilisent scikit-learn. On retrouve ensuite TensorFlow, le framework de deep learning de Google, utilisé par 50%. Enfin, le framework PyTorch de Facebook attire 31% d’utilisateurs contre 26% en 2019.

L’algorithme de Machine Learning le plus populaire est la régression linéaire, utilisé par 80% des Data Scientists. Viennent ensuite l’arbre de décision et le gradient-boost. En outre, 43% utilisent le réseau de neurones convolutif, 30% le réseau de neurones récurrent, et 15% un réseau de neurones  » Transformer « .

La Data Science et le Cloud public

La plupart des Data Scientists font aujourd’hui appel à un fournisseur de Cloud public. Le plus populaire est Amazon Web Services (AWS) utilisé par près de 50% des interrogés. Un tiers d’entre eux utilisent la Google Cloud Platform, et 29% se tournent vers Microsoft Azure.

Le service Cloud le plus utilisé est l’infrastructure de calcul basique, et Amazon EC2 est utilisé par 40% des participants. La  » fonction en tant que service  » est aussi très populaire, et AWS Lambda domine ce domaine avec 21% des votes. Les solutions FaaS de Google et Microsoft attirent respectivement 12% et 9% des interrogés.

Concernant les services de conteneurisation, AWS est également leader avec 14% d’utilisateurs. Seuls 17% de sondés n’utilisent aucune plateforme Cloud contre 25% l’an passé.

Vous savez désormais quelles sont les tendances en termes de technologies et de démographie dans les domaines de la Data Science et du Machine Learning. Toutes les données du sondage de Kaggle sont disponibles sur le site web à cette adresse, au même titre que celles des études des années précédentes.

Pin It on Pinterest