Hortonworks DataFlow (HDF) est une plateforme de gestion de flux de données en temps réel fondée sur Apache NiFi. Son histoire commence au sein de la National Security Agency américaine bien avant son adoption par le secteur privé.
Le projet est conçu sous le nom Niagarafiles par la NSA pendant plus de huit ans. L’Apache Software Foundation le publie en open source en 2014. Hortonworks en fait un produit commercial en août 2015 après le rachat d’Onyara. Cloudera hérite aujourd’hui de la plateforme sous le nom de Cloudera DataFlow (CDF) depuis janvier 2019.
TLDR
- Hortonworks DataFlow naît en 2014 d’un transfert technologique de la SA via l’Apache Software Foundation. Sa commercialisation débute dès 2015 après le rachat d’Onyara par Hortonworks.
- Reposant sur Apache NiFi et son paradigme de Flow-Based Programming, il offre une traçabilité complète des données (data provenance) et plus de 400 connecteurs natifs pour les environnements hybrides et multicloud.
- Absorbé dans le portefeuille Cloudera en janvier 2019 lors d’une fusion valorisée à plusieurs milliards de dollars, il évolue aujourd’hui sous le nom Cloudera DataFlow (CDF) disponible en mode on-premises et cloud natif.
Une technologie développée dans les coulisses de la NSA
Le projet Niagarafiles est l’ancêtre direct d’Hortonworks DataFlow. La National Security Agency (NSA) le développe en interne pendant huit ans. Son objectif : automatiser le déplacement de données entre réseaux hétérogènes. À l’automne 2014 l’agence le publie via le programme NSA Technology Transfer Program. L’Apache Software Foundation en fait un projet de premier niveau en juillet 2015 sous le nom Apache NiFi.
Les ingénieurs clés du projet fondent Onyara en décembre 2014 pour en assurer le support commercial. Hortonworks tient lui-même d’un spin-off de Yahoo spécialisé dans la distribution Hadoop. Il reconnaît vite le potentiel de cet outil pour traiter des flux de l’Internet des objets. Le 25 août 2015 il annonce le rachat d’Onyara et lance la marque Hortonworks DataFlow. Cette généalogie, de l’espionnage numérique au big data d’entreprise, confère à la plateforme une maturité architecturale rare.
Architecture et composants essentiels d’Hortonworks DataFlow
L’architecture d’Hortonworks DataFlow repose sur le paradigme de Flow-Based Programming (FBP). Les données y circulent sous forme de FlowFiles, des unités atomiques composées d’un contenu binaire et de métadonnées. Ces unités transitent entre des Processeurs reliés par des files de priorité configurables. Ce modèle permet de modifier les flux en temps réel sans interrompre le pipeline. Il s’oppose structurellement aux architectures ETL traditionnelles par sa nature non bloquante.
La version HDF 2.0 publiée en 2016 intègre trois composants open source majeurs. Leur gestion s’effectue depuis la console centralisée Apache Ambari. Apache NiFi orchestre Apache Kafka pour la messagerie distribuée et Apache Storm pour les événements complexes. Un autre élément clé s’ajoute à l’initiative, à savoir Apache MiNiFi. Il s’agit d’une version allégée de NiFi déployable sur des dispositifs d’edge computing tels que des pylônes radio ou des véhicules connectés. La data provenancen (traçabilité complète de chaque donnée) répond aux exigences de conformité des secteurs financiers et de la santé.
Les multiples usages d’Hortonworks DataFlow en secteurs industriels et publics
Dès 2015, Hortonworks DataFlow a droit sa présentation lors d’un webinaire destiné aux producteurs pétroliers et gaziers. La plateforme cible des secteurs où volume et vélocité des données dépassent les architectures classiques. La détection de fraude en temps réel le monitoring industriel et l’analyse de sentiment figurent parmi les premiers cas documentés.
Prescient Edge, une société américaine spécialisée en gestion des risques de défense, déclare l’utiliser pour tracer chaque donnée tout au long de ses processus analytiques. Dans le secteur postal, le groupe Royal Mail au Royaume-Uni déploie HDF pour combiner données en repos et en mouvement à grande échelle. Les services financiers et la santé utilisent la data provenance pour satisfaire les régulateurs (RGPD et HIPAA). L’intégration native avec le Hortonworks Data Platform (HDP) connecte le traitement temps-réel aux lacs de données historiques. Et plus de 400 connecteurs sur la plateforme s’intègre à Kafka Elasticsearch MongoDB et aux hyperscalers.
Absorption par Cloudera et évolution vers le cloud natif
Le 3 janvier 2019 Cloudera (NYSE : CLDR) finalise sa fusion avec Hortonworks. Les deux sociétés présentent l’opération comme la création du premier Enterprise Data Cloud open source. Elle s’effectue par échange d’actions avec un ratio de 1,305 action Cloudera pour chaque action Hortonworks. Les revenus trimestriels de l’entité combinée atteignent 144,5 millions de dollars au quatrième trimestre 2019. C’est une progression de 37 % sur un an selon les documents SEC.
Hortonworks DataFlow est rebaptisé Cloudera DataFlow (CDF) et s’ajoute à la Cloudera Data Platform (CDP). La version cloud native CDF-PC s’appuie sur des clusters Kubernetes à autoscaling. Elle permet des déploiements self-serve depuis un catalogue centralisé de flux. Les pipelines Apache NiFi sont versionnés dans un NiFi Registry avant d’être déployés en production. Forrester Research classe Cloudera parmi les Strong Performer de son Wave Streaming Analytics Q3 2019.
Tarifs et options de licence pour Hortonworks et Cloudera DataFlow
L’offre héritière d’Hortonworks DataFlow est aujourd’hui structurée autour de Cloudera DataFlow. Elle est disponible en abonnement annuel selon le mode de déploiement choisi. La plateforme Cloudera Enterprise avec les capacités DataFlow est documentée à partir de 97 776 £ par an pour un périmètre supérieur à 100 TB (appels d’offres G-Cloud 14 — mai 2024). Les tarifs cloud varient selon le fournisseur (AWS ou Azure) sans grille publique fixe.
| Option | Déploiement | Modèle tarifaire | Indicatif de coût | Inclus |
|---|---|---|---|---|
| CDF Public Cloud (CDF-PC) | AWS / Azure / GCP | Par CCU horaire | Dès $0,07 / CCU / h | NiFi managé · 400+ connecteurs · Versioning de flux |
| CDF Private Cloud (On-Premises) | Infrastructure interne | Abonnement annuel | Sur devis (> $50 000 / an estimé) | Support 24/7 · Mises à jour · Sécurité Ranger |
| Cloudera Enterprise (HDF inclus) | Hybride | Abonnement annuel | Dès ~£97 776 / an (100+ TB) | HDF + HDP + ML + stockage NoSQL |
| Apache NiFi (open source) | Auto-hébergé | Gratuit (licence Apache 2.0) | $0 (coûts infra seuls) | NiFi · MiNiFi · NiFi Registry · communauté Apache |
| Formation Cloudera (CDF) | En ligne / présentiel | Par session | $500 – $3 000 / module | Certifications · Labs pratiques · Documentation |
Sources : Cloudera public pricing · iOCO Pricing Document mai 2024 · GetApp 2025. Les tarifs enterprise sont indicatifs et varient selon la taille du déploiement et le contrat de support négocié.
Foire aux Questions
Hortonworks DataFlow est une distribution commerciale packagée qui intègre Apache NiFi avec Apache AmbariApache Ranger et Apache Kafka dans un déploiement unifié et supporté. Apache NiFi standalone est le projet open source brut sous licence Apache 2.0 qui exige l’assemblage et la configuration manuelle de tous les composants tiers.
Les versions HDF 3.x demeurent téléchargeables via les archives Cloudera mais ne reçoivent plus de mises à jour de sécurité actives. Pour de nouveaux projets, Cloudera recommande de déployer directement CDF on-premises ou CDF-PC pour un support continu.
Chaque FlowFile traversant un flux NiFi génère automatiquement un enregistrement horodaté documentant son contenu sa transformation et sa destination. Ces enregistrements sont stockés dans un Provenance Repository interrogeable depuis l’interface pour reconstituer intégralement la généalogie d’une donnée.
Les alternatives les plus comparées sont Amazon KinesisConfluent PlatformStriim et Talend Data Integration selon les analyses de marché disponibles. CDF se distingue par sa couverture edge-to-cloud via Apache MiNiFi et par sa traçabilité native absente des environnements strictement cloud-first.
L’architecture d’Hortonworks DataFlow permet de définir des règles de routage conditionnel basées sur les attributs de chaque FlowFile avant tout franchissement de frontière réseau. Cette capacité combinée au chiffrement natif et à Apache Ranger constitue une base pour répondre à l’article 44 du RGPD sur les transferts internationaux.
- Partager l'article :