La révolution de l’IA est en marche avec l’arrivée de Databricks Dolly 2.0, le premier rival open-source de GPT-4. Découvrez les avancées de cette technologie innovante et son impact potentiel sur l’industrie de l’IA dans cet article.

Cette plateforme est considérée comme le premier rival open-source de GPT-4. De plus, c’est l’un des plus grands noms de l’IA en matière de traitement du langage naturel. Databricks Dolly 2.0 est conçue pour offrir une flexibilité et une personnalisation accrues aux utilisateurs. Il permet notamment de modifier les paramètres de formation.

Avec cette nouvelle version, Databricks espère attirer une communauté de développeurs et de chercheurs pour collaborer et contribuer à l’amélioration de la plateforme.

Databricks dévoile Dolly 2.0, le premier modèle de langage ouvert compatible GPT-4

Databricks a lancé aujourd’hui la version la plus récente de son modèle de langage interactif, ChatGPT, appelé Dolly 2.0. Par ailleurs, cette version est unique en son genre, puisque contrairement à d’autres modèles commerciaux, Dolly 2.0 est open-source et peut suivre des instructions.

🎉 Databricks unveils Dolly 2.0, the “first” open-source, instruction-following LLM for commercial use!



Fine-tuned on a transparent & freely available dataset, it's perfect for businesses seeking a ChatGPT-like experience without API costs.



Le modèle montre de manière transparente un ensemble de données pour se former. Il permet aux entreprises d’utiliser Dolly 2.0 sans frais d’accès à l’API ou partage de données. Selon Ali Ghodsi, PDG de Databricks, Dolly 2.0 est le seul modèle de langage interactif à communiquer de manière naturelle avec les utilisateurs.

Les utilisateurs peuvent améliorer les données d’entraînement mises à disposition gratuitement sous licence open-source et créer leur propre version de Dolly. Databricks a également mis à disposition le corpus de données databricks-dolly-15k. Cela lui a permis de perfectionner Dolly 2.0. Les experts considèrent ce corpus comme le premier corpus d’instructions à source ouverte.

Databricks lance Dolly 2.0, le successeur de GPT-4 en open-source

Ces derniers temps, de multiples modèles de langage ont été développés tels que le LLaMA de Meta, Alpaca, Koala, Vicuna et Dolly 1.0 de Databricks. Ces modèles sont considérés comme open-source selon diverses définitions. Ils respectent les instructions d’utilisation ou offrent une certaine forme d’ouverture ou d’accès contrôlé. Néanmoins, certains de ces modèles « ouverts » ont été récupérés par l’industrie.

Par exemple, l’ensemble de données du projet Stanford Alpaca, qui comprend 52 000 questions-réponses, a été formé sur les résultats du ChatGPT d’OpenAI. Databricks a créé Dolly 2.0, un modèle de langage de 12 milliards de paramètres basé sur Eleuther AI pythia. Ceci leur permet de contourner l’interdiction d’OpenAI d’utiliser les résultats de services concurrents.

Il a été affiné exclusivement sur un petit corpus libre d’enregistrements d’instructions générés par les employés de Databricks. Les conditions de licence de cet ensemble de données permettent son utilisation, sa modification et son extension à toute fin.

La plateforme Databricks : l’analyse de données cloud avancée pour entreprises

Databricks est une entreprise de logiciels basée dans la Silicon Valley qui offre une plateforme d’analyse de données cloud pour les entreprises. La plateforme Databricks permet aux utilisateurs de traiter des données massives en temps réel. De plus, il fournit des informations exploitables grâce à des analyses de données avancées.

Databricks construit sa plateforme sur Apache Spark, un moteur de traitement de données en mémoire. Cela lui permet une évolutivité rapide et une analyse de données en temps réel à grande échelle.

La plateforme Databricks offre également des fonctionnalités de collaboration en temps réel. Il permet donc à plusieurs utilisateurs de travailler simultanément sur un projet et de partager des résultats. De plus, des entreprises de divers secteurs utilisent Databricks, notamment les services financiers, la santé, l’énergie, les télécommunications et les médias. Par ailleurs, des gouvernements et des organisations à but non lucratif utilisent également la plateforme.