Vous souhaitez devenir Data Scientist ou scientifique des données, mais ne savez pas par où commencer ? Découvrez les compétences à acquérir et les formations existantes pour atteindre votre objectif !
Si vous consultez ce dossier, c’est probablement parce que vous souhaitez devenir Data Scientist. De fait, vous avez sans doute déjà une idée de ce en quoi consiste cette profession.
Nous ne nous étendrons donc pas ici sur la définition de ce métier. Toutefois, pour ceux d’entre vous qui sont arrivés ici un peu par hasard et n’ont aucune idée de ce dont il s’agit, voici un bref rappel.
Pour faire simple, un Data Scientist est responsable, au sein d’une organisation, d’analyser les données pour résoudre des problèmes ou répondre à des questions. Contrairement au Data Analyst, toutefois, le Data Scientist utilise pour y parvenir le Machine Learning et les statistiques.
C’est ce qui lui permet de produire des modèles prédictifs et / ou explicatifs. Pour de plus amples explications, n’hésitez pas à consulter notre dossier complet à cette adresse. À présent, attaquons le vif du sujet à savoir : comment devenir un Data Scientist ?
Quel est le profil d’un Data Scientist ?
Les premiers Data Scientists étaient principalement des développeurs, des informaticiens, des ingénieurs. Ils créaient des modèles de Machine Learning, optimisaient les processus, analysaient les données non structurées, créaient des programmes spécifiques pour chaque problème et effectuaient manuellement des » map / reduces « .
Fort heureusement, avec l’apparition de programmes et de packages à hautes performances, la plupart de ces opérations sont désormais fortement simplifiées ou automatisées. Aujourd’hui, un Data Scientist passe plus de temps sur la modélisation que sur l’ingénierie.
De fait, l’apprentissage du métier s’en trouve lui aussi facilité. Différents profils variés peuvent aujourd’hui devenir Data Scientists.
L’une des principales raisons est l’essor du langage Python, facile à maîtriser et relativement intuitif. En outre, certaines tâches du Data Scientist sont désormais déléguées à d’autres experts. Par exemple, le Data Engineer se charge de la préparation des données.
La production d’algorithmes est simplifiée par des outils comme SageMaker, et même la création de fonctions d’ingénierie complexes est automatisée par AutoML. Par conséquent, il existe de moins en moins de » profil type » de Data Scientist.
Quelles sont les compétences requises pour devenir Data Scientist ?
Voyons à présent quelles sont les compétences requises pour devenir Data Scientist. Tout d’abord, il est nécessaire d’apprendre la programmation informatique.
Parmi les langages les plus couramment utilisés en Data Science, on compte Python, R ou encore Scala. Cependant, la priorité est d’apprendre Python. Pour cause, ce langage est celui qui fédère la plus large communauté d’analystes de données. Il sera donc plus simple de trouver des exemples d’analyses sur des plateformes comme Kaggle, des exemples de code sur Stackoverflow, et même des offres d’emploi.
Bien évidemment, un Data Scientist doit maîtriser les bases du Machine Learning. Vous devrez notamment apprendre à connaître et à comprendre les différents modèles d’apprentissage automatique, et à choisir lesquels appliquer en fonction des problèmes à résoudre.
En outre, le Data Scientist doit aussi être expert en statistiques. C’est ce qui le distingue du Machine Learning Engineer. Vous devez apprendre à effectuer une analyse de données explicative, connaître les bases de la probabilité et de l’inférence, et comprendre les concepts du biais de sélection, du Simpson Paradox, de l’association de variables et du design d’expériences.
Comment acquérir les compétences de Data Scientist ?
Pour maîtriser le langage Python, vous pouvez vous tourner vers les formations les plus populaires. Le MIT propose un cours » Introduction to Computer Science and Programming Using Python » d’une durée de 120 heures.
L’Université du Michigan quant à elle propose un cours » Python for Everybody » d’une durée de 30 heures. Ces deux formations disponibles en ligne sont très populaires, et plusieurs milliers de personnes les ont déjà complétées.
Il n’y a aucun pré-requis, et même les débutants peuvent donc se tourner vers ces deux options. Si vous maîtrisez déjà d’autres langages de programmation, et souhaitez découvrir le langage Pythong, vous pouvez privilégier le cours de 4 heures proposé gratuitement par DataCamp.
Pour acquérir des compétences en Machine Learning, le cours le plus populaire est celui proposé sur Coursera par le Data Scientist Andrew NG de l’Université de Stanford. Ce cours de 60 heures vous propose de découvrir l’apprentissage automatique de façon technique en utilisant le langage Octave. Des connaissances en algèbre linéaire et en statistiques sont toutefois préférables.
Vous pouvez aussi vous tourner vers le cours Machine Learning proposé sur Coursera par l’Université de Washington, d’une durée approximative de 180 heures. De même, un nanodegree Machine Learning d’une durée d’environ 120 heures est proposé sur Udacity.
Concernant les statistiques, le MIT propose un cours gratuit » Fundamentals of Statistics » d’une durée de 160 heures. Ce cours est extrêmement complet, et vous apprendra notamment quel modèle utiliser en fonction de chaque ensemble de données, comment choisir les variables d’une régression linéaire, ou comment modéliser des phénomènes non-linéaires.
Néanmoins, ce cours peut être un peu trop technique si vous n’avez pas de notions solides en mathématiques. Il existe plusieurs alternatives, comme le cours Probability proposé gratuitement sur edX par Harvard. Cette formation de moins de 12 heures se focalise sur les probabilités.
L’Université de Harvard propose, toujours sur edX et toujours gratuitement, un cours de 12 heures » Inference and Modelling « permettant d’apprendre à créer des modélisations statistiques et de comprendre la fiabilité de ces prédictions.
Plusieurs livres peuvent aussi vous aider à acquérir des compétences de Data Scientist. Parmi les meilleurs, on peut citer Data Science from Scratch par Joel Grus, Python for Data Analysis: Data Wrangling With Pandas, NumPy and IPython par Wes McKinney, Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, ou encore Think Stats: Probability and Statistics for Programmers.
Quels sites web consulter pour suivre l’actualité de la Data Science
Les livres et formations en ligne précédemment cités sont de bonnes références pour acquérir des fondations solides, mais la Data Science est une discipline en constante évolution. Il est donc important de vous tenir à jour, en fréquentant des plateformes sur lesquelles convergent les professionnels.
La plateforme Kaggle, détenue par Google, constitue une excellente source d’exemples et de discussions sur la science des données. De nombreuses compétitions sont organisées, et seront l’occasion de faire vos armes avec à la clé d’éventuelles récompenses.
Le site KDnuggets, créé en 1997, réunit également de nombreuses publications et autres contenus rédigés par des Data Scientists. Vous y trouverez de précieuses astuces et des applications. Des milliers de Data Scientists se réunissent également sur les blogs AnalyticsVidhya et TDS pour partager du contenu.
- Partager l'article :