transfer learning iot data scientist

Transfer Learning : réaliser de meilleures prédictions avec peu de données

Le Transfer Learning vise à transférer des connaissances d'une ou plusieurs tâches sources vers une ou plusieurs tâches cibles. Avec cette technique, il est possible d'appliquer des données apprises à partir de tâches antérieures sur de nouvelles tâches ou domaines partageant des similitudes.

Lorsque Donal Trump a déclaré sa candidature pour devenir président, la plupart des analystes avaient prédit qu'il avait une chance infiniment petite d'y arriver. L'analyse la plus représentative fut celle de Nate Silver pour FiveThirtyEight. Il a estimé que Donald Trump avait 2% de chances de gagner la présidentielle. Cette estimation était basée sur de nombreuses données historiques concernant les anciens candidats, leur origine, et leurs succès et échecs passés. Il est donc clair qu'il est compliqué de tirer des prédictions claires de données historiques comme celles-ci. 

transfer learning iot

Les analystes politiques utilisent les sondages pour estimer la probabilité du succès d'un candidat. Cependant, les sondages ne sont pas parfaits et souffrent généralement de plusieurs types de préjugés. Pour surmonter ces obstacles, les statisticiens politiques construisent des modèles pour tenter de corriger les erreurs de sondage en utilisant les données des élections précédentes. Cette méthode est basée sur l'hypothèse que les sondages actuels et historiques souffrent du même type d'erreurs.

Puisque les élections présidentielles sont des événements rares, les données historiques sont limitées. En d'autres termes, les données sont relativement petites et dépassées.

Mieux comprendre les phénomènes économiques et sociaux

Les statisticiens du secteur privé font face à des problèmes semblables lorsqu'il s'agit de prédire des événements inattendus ou lorsqu'ils travaillent à partir de données erronées ou incomplètes. Il ne suffit pas de renvoyer tout le travail vers les machines. La plupart des techniques de machine-learning et l'exploitation statistique supposent que les données historiques utilisées pour former le modèle du machine-learning se comportent de la même manière que les données cibles auxquelles le modèle a été appliqué ultérieurement. Cette hypothèse ne tient souvent pas la route parce que les données sont obsolètes. De plus, il est souvent coûteux et peu pratique d'obtenir des données récentes supplémentaires pour confirmer cette hypothèse.

Pour rester pertinents, les statisticiens devront sortir de la position basique de la mise en place de  modèles basés uniquement que des données historiques directes et enrichir leurs modèles de données récentes pour mieux cibler les tendances actuelles.

Cette technique est appelée Transfer Learning, elle aide à résoudre ce type de problème en offrant un ensemble d'algorithmes qui identifie les domaines de connaissance potentiellement applicables au domaine cible. Cet ensemble de données plus large peut ensuite être utilisé pour aider à former un modèle. Ces algorithmes identifient les points communs entre la tâche cible, les tâches récentes, les tâches précédentes et les tâches similaires. De ce fait, cela aide à guider l'algorithme pour apprendre uniquement à partir de données pertinentes.

competences-data-scientist-660x330

Dans le cas des élections présidentielles américaines, il serait possible d'utiliser cette méthode pour comprendre quels phénomènes économiques et sociaux internationaux pourraient prédire la montée d'un candidat inattendu comme Trump. Alors que le phénomène Trump est nouveau dans le climat politique américain, les analystes de la politique avait déjà observé cette tendance à un niveau mondial. Ronald Inglehart et Pippa Norris ont en effet examiné la croissance du populisme dans de nombreuses sociétés occidentales. Par exemple, depuis l'émergence du UK Independance Party au Royaume-Uni, le populisme a alimenté les sentiments anti-européens et anti-immigration, ce qui a donné lieu au Brexit. De même, l'insécurité économique dans les économies post-industrielles et la volonté de contrer la diversification des sociétés ont conduit les mêmes groupes d'électeurs aux urnes.

Les techniques de Transfer Learning auraient pu permettre aux statisticiens de mieux comprendre les tendances actuelles du vote à l'échelle mondiale. Selon ce modèle, les données provenant de l'extérieur des Etats-Unis auraient permis de prédire un plus grand soutien pour Trump, en particulier en se basant sur les données démographiques.

Une technique utile aux prédictions commerciales

Les problèmes qui découlent de l'utilisation de données historiques sont également fréquents dans de nombreux autres secteurs. Les entreprises ont tendance à réaliser des investissements stratégiques en se basant sur des données historiques en ignorant que la réalité a pu changer entre-temps.

On retrouve le problème des données incomplètes ou peu fiables dans de nombreux secteurs. Par exemple, une entreprise voulant appliquer une expérience réussie dans son pays d'origine à un autre pays, dans le but de s'y exporter, pourra utiliser le Transfer Learning pour identifier les similitudes entre les deux pays. Il est par exemple possible d'identifier des groupes de population qui présentent des caractéristiques démographiques et économiques similaires ainsi que ce qui les différencie. D'un point de vue commercial, cela permettra aux décideurs de simuler la performance de l'entreprise dans un environnement similaire au marché ciblé.

Au lieu d'utiliser les techniques courantes consistant à utiliser uniquement les données historiques du même problème pour faire des prédictions, les statisticiens politiques et les commerciaux doivent commencer à utiliser des données provenant de problèmes similaires survenus récemment. Pour établir un lien entre les deux problèmes, les algorithmes de Transfer Learning permettent de focaliser sur le processus d'apprentissage sur les parties les plus pertinentes des données historiques.

Malgré tout, les données historiques restent extrêmement précieuses pour réaliser des prédictions. Toutefois, la capacité à utiliser des techniques plus avancées en data science aidera à tirer parti de l'information d'événements comparables, ce qui est crucial pour établir des prévisions plus précises, surtout lorsque les données historiques sont limitées et l'environnement incertain. Pour évider les erreurs critiques dans la prédiction, les analystes de données doivent adopter de nouvelles méthodes pour traduire les connaissances provenant de différentes périodes et domaines.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *