Pachyderm iot

[Startup Tour] Pachyderm, une alternative au célèbre Hadoop pour le traitement de données

Joe Doliner est le CEO de la startup Pachyderm. Son objectif est proposer une alternative aux logiciels open source permettant de gérer et traiter des données.

La technologie de Pachyderm est implémentée dans GO puis déployés sur Kubernetes. Ce déploiement permet de programmer le code conteneurisé de l’utilisateur dans l’environnement qui gère et traite les données. Pour faciliter le déploiement de Pachyderm sur tous les Clouds, les données peuvent être stockées dans des magasins d’objets comme S3, Azure Blob Storage, Google Cloud Storage, etc.

Une solution qui permet de traiter et gérer des masses de données

« De nos jours, un logiciel ne fonctionne pas vraiment, à moins que l’utilisateur s’en serve dans un contexte particulier » déclare Joe Doliner. Pachyderm propose un Data Lake, un système permettant de stocker et de traiter de très grands ensembles de données. Pachyderm dispose de deux caractéristiques généralement absentes dans les Data Lakes.

Le système est conteneurisé, ce qui veut dire que lorsqu’un utilisateur veut traiter des données, il a juste à créer un conteneur avec son code et Pachyderm s’occupera du reste. C’est un avantage pour les data scientists, car ils peuvent procéder à un Big Data avec touts les outils open source qu’ils connaissent déjà.

Cette méthode permet aux data scientists de comprendre l’évolution des données et d’où elles viennent. « À chaque fois que des données passent par Pachyderm, nous enregistrons ce processus pour savoir d’où les nouvelles données sont venues et à partir de quel code cela a été exécuté ». Cette information appelée « data provenance » est très utile pour les data scientists. Cela leur permet d’avoir un résultat dans un contexte pour le reproduire ou l’adapter à un autre projet.

Pachyderm iot data

Des secteurs et clients très ciblés

Pachyderme est une startup focalisée sur deux secteurs, les fonds spéculatifs et les chercheurs en génomique. Ils font des choses très différentes avec les données, mais utilisent souvent les mêmes outils « Nous préférons nous focaliser sur des entreprises en particulier plutôt que de cibler des marchés. Par exemple, les entreprises qui officient beaucoup dans le machine-learning sont parfaites pour nous, car elles utilisent des outils comme Tensorflow ou Torch ».

En effet, ces outils peuvent être conteneurisés et ne s’ingèrent pas facilement dans d’autres systèmes. Connaître la provenance des données est de plus en plus intéressants, les utilisateurs ont besoin de comprendre les données utilisées pour former les algorithmes. L’Union Européene vient d’ailleurs de voter une loi obligeant à donner une explication à propos des décisions prises par les algorithmes.

Parmi ses clients, Pachyderm compte General Fusion, une société qui développe le premier réacteur à fusion commercial. « Lorsque l’entreprise a été créée, cela paraissait physiquement impossible. Ils ont majoritairement réalisé des expériences sur le plasma pour comprendre comment créer des réacteurs à  fusion stables »

Les mesures de ces expériences ont été enregistrées dans le Pachyderm File System (PFS) où elles ont été photographiées par un système de contrôle de version. Le contrôle de versions permet aux clients de la société de gérer les changements dans leurs ensembles de données. Les clients utilisent également Pipeline Pachyderm System (PPS) pour comprendre des données encore plus obscures. « L’avantage d’un système conteneurisé est que nous n’avons pas à nous soucier des calculs que nos clients effectuent ». Pachyderm travaille également avec des sociétés spécialisées dans le trading, le marketing automatisé et l’immobilier.

Pachyderm est plus simple que Hadoop

Le principal concurrent de Pachyderm est l’écosystème de Hadoop « C’est un gigantesque écosystème avec beaucoup d’outils puissants, mais il peut être très coûteux. Nous aimons positionner Pachyderm comme une solution plus simple et alternative ». Pachyderm ne traite pas le même nombre d’usages, mais elle couvre des verticaux importants. Dans Hadoop, il sera possible de faire de 10 façons ce qui est proposé de manière simple dans Pachyderm.

« Notre objectif majeur en 2017 est de rester en contact avec nos utilisateurs. Pachyderm est un projet très jeune sur lequel nous avons eu un élan de popularité fin 2016 et en ce début d’année ». Au fur et à mesure de l’avancée du projet et de l’utilisation croissante de la solution, les utilisateurs découvrent des bugs. Joe Doliner compte également se focaliser sur ces bugs en 2017. « Je voudrais voir Pachyderm stable et traiter plus d’un téraoctet de données par jour »

Pachyderm iot data interview

Etre honnête avec moi même. La plupart des fondateurs qui échouent se sont en quelque sorte trompés. Ils pensent que le marché va vouloir de leur produit et pensent que les gens seront disposés à payer avec un peu de volonté. C’est compliqué, car vous avez absolument besoin d’y croire pour réussir. Vous devez penser que le marché sera intéressé par votre produit, mais vous devez avoir raison.

Vous devez donc être sceptique et y croire en même temps, en permanence. Le doute vous permettra d’aller chercher des preuves de la viabilité de votre projet auprès du monde réel. Cela amènera, pas exemple, à aller chercher dix personnes affirmant être en mesure de payer pour un votre service. Arrive ensuite le développement d’un prototype et une tentative de vente pour voir s’ils disaient vrai. Si ces deux étapes ne fonctionnent pas, il vaudra mieux revoir votre stratégie et votre produit. Il faut bien faire la différence entre ce que disent les personnes autour de vous et la réalité.

Pachyderm iot data interview

Le plus difficile pour moi a été de rester concentré et motivé sans patron. Lorsque j’ai crée Pachyderm, je craignais de perdre mon temps sur les mauvaises choses ou de ne pas assez travailler sans pression externe. Je n’ai pas pris en compte ce problème avant de commencer, j’ai juste commencé. La motivation personnelle est aussi efficace que celle donnée par une personne ayant le pouvoir de vous congédier. Mes employés sont ma seule motivation, car ils sont le reflet de mon travail, je sais ce que je fais maintenant. La rétroaction sociale est très importante pour moi.

Pachyderm iot data interview

Dans le cadre du Big Data, c’est comme sur la plupart des marchés. Vous devez comprendre la valeur de votre produit, trouver des clients en mesure de payer pour cette valeur et faire tout ce qui est en votre pouvoir pour les satisfaire. Par exemple, sur le marché de l’IoT, trop d’entrepreneurs voient le marché comme une opportunité en suivant aveuglément la tendance. Il faut toujours trouver quelque chose de différent et ne pas suivre les autres.

Pachyderm iot data interview

Y Combinator est le meilleur pari à faire, surtout si vous êtes débutant et que vous n’avez personne à écouter.

Pachyderm iot data interview