Vous voulez entraîner votre propre IA ? Harvard lance un dataset gratuit financé par OpenAI !

Dina R. 13 décembre 2024 2 minutes de lecture Intelligence artificielle

Harvard lance un gigantesque ensemble de données gratuit pour entraîner des modèles d’IA, financé par OpenAI et Microsoft. Cette initiative, basée sur des livres du domaine public, vise à démocratiser l’accès aux ressources d’intelligence artificielle et à équilibrer le secteur.

Harvard vient de dévoiler un ensemble de données de haute qualité composé de près d’un million de livres du domaine public. Ces données sont accessibles à tout le monde pour entraîner des modèles linguistiques et autres outils d’IA. Ce projet, développé par la nouvelle Institutional Data Initiative de l’université, a été rendu possible grâce au financement de Microsoft et OpenAI. Les livres inclus proviennent du projet Google Books et sont exempts de droits d’auteur.

Une base de données cinq fois plus grande que Books3 ?

La base de données de l’Institutional Data Initiative de Harvard surpasse largement la célèbre Books3. Rappelons que ce dernier a été utilisé pour former des modèles comme Llama de Meta.

En effet, il est constitué de près d’un million d’ouvrages couvrant une diversité impressionnante de genres, d’époques et de langues. On y trouve des classiques de Shakespeare, Charles Dickens et Dante. Par ailleurs, il propose aussi des manuels de mathématiques tchèques ou encore des dictionnaires de poche gallois.

Greg Leppert, directeur exécutif de l’Institutional Data Initiative, décrit ce projet comme une tentative de « démocratiser l’accès » aux ressources de formation à l’IA. L’objectif étant de fournir au grand public, aux petites entreprises et aux chercheurs indépendants des outils jusque-là réservés aux grandes entreprises technologiques. « Il a fait l’objet d’un examen rigoureux », précise Leppert.

D’ailleurs, il pense également que cette ressource pourrait être utilisée avec d’autres données sous licence pour former des modèles d’IA performants pour se démarquer sur le marché. Il compare cette initiative à l’impact de Linux, devenu un système d’exploitation incontournable à l’échelle mondiale.

Une collaboration avec Microsoft et OpenAI

Burton Davis a affirmé que le soutien de Microsoft à ce projet reflète sa vision de la création de « pools de données accessibles » au service de l’intérêt public. Pour rappel, il s’agit du vice-président et directeur juridique adjoint de Microsoft pour la propriété intellectuelle.

En fait, ces ressources visent à aider les start-ups et les petites entreprises d’IA à accéder à des ensembles de données de haute qualité. Néanmoins, il précise que Microsoft n’envisage pas de remplacer complètement les données actuelles utilisées pour entraîner ses propres modèles. Et ce, particulièrement par des alternatives du domaine public comme celles de Harvard. « Nous utilisons des données accessibles au public pour entraîner nos modèles », a-t-il déclaré.

Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI, quant à lui a aussi exprimé son enthousiasme. D’ailleurs, il a qualifié le projet de « formidable initiative » dans un communiqué.

Je dois admettre que rendre ces données accessibles au grand public est une excellente initiative ! Et vous, êtes-vous du même avis ? Partagez votre idée dans les commentaires !