IA générative : Databricks contourne l'approche propriétaire d'OpenAI | LeMagIT (2023)

Vraiment

Databricks publie Dolly 2.0, un modèle de langage open source "commercialement viable" pour le suivi des instructions. Alors que la plupart des projets de recherche reposent sur des données synthétiques générées à l'aide des technologies propriétaires d'OpenAI, l'éditeur adopte l'approche inverse et propose un ensemble de données de formation ouvert et sans publicité.

Databricks publie Dolly 2.0, un modèle de langage open source "commercialement viable" pour le suivi des instructions. Alors que la plupart des projets de recherche s'appuient sur des données synthétiques générées à l'aide des technologies propriétaires d'OpenAI, l'éditeur prend l'autre voie et propose un jeu de données de formation ouvert et exempt de restrictions commerciales.

Databricks voulait prouver qu'il était possible de livrerun modèle de langage open source à faible coût.

Elle a découvert qu'elle est plus petite que la taille du modèleNLGCeci est important mais la qualité de son ensemble de données pour créer un modèle de suivi des commandes de type ChatGPT.

Dans ce contexte, l'éditeur a recommandé Dolly il y a quelques semaines. Ce modèle de démonstration peut être exécuté sur un poste de travail ou en dépensant des dizaines de dollars sur un service cloud.

Solutions open source contraintes par l'utilisation des services OpenAI

Dolly est un clone du modèle GPT J-6B du laboratoire EleutherAI. C'est un "petit" modèle de langage open source avec 6 milliards de paramètres. Databricks lui a appris queenregistrerd'instructions synthétiques de l'alpaga formé par des chercheurs de l'Université de Stanford sur la baseProjet CallMa, par Meta.

Ces 52 000 paires de questions et réponses ont été générées à l'aide du modèle Text da Vinci 003, l'une des variantes GPT 3.5 conçues par OpenAI. Problème, OpenAI interdit formellement d'utiliser ses propres modèles pour produire des solutions concurrentes des siennes. Les chercheurs de Stanford ont donc proposé l'ensemble de données sous une licence Creative Commons NC 4.0. Cela limite toute utilisation commerciale d'un tel ensemble de données.

Cependant, selon Ali Ghodsi, PDG et co-fondateur de Databricks, certains clients souhaitaient pouvoir utiliser Dolly à des fins commerciales, pour leur propre usage ou comme base d'un produit. « C'est la question que nos clients ne cessent de nous poser : comment puis-je utiliser Dolly dans un projet commercial ? ", Il dit.

En réponse à cette demande, Databricks a annoncé la disponibilité de Dolly 2.0 le 12 avril. Comme dans la première version, l'éditeur a opté pour un modèle créé par EleutherAI : Pythia-12B. "Nous avons testé GPT J-6B et Pythia-12B, qui, comme leur nom l'indique, ont deux fois plus de paramètres", explique Ali Ghodsi. Pythia-12B a plus de paramètres mais a également été formé avec plus d'ensembles de données. "Les résultats sont meilleurs", dit-il. L'administrateur conclut qu'un modèle avec entre 10 et 20 milliards de paramètres est "dans une bonne fourchette" pour la conception d'une application inspirée de ChatGPT.

Avant tout, Databricks devait proposer un jeu de données qui ne gênerait pas la commercialisation d'une solution dérivée.

Lorsque l'ensemble de données est plus important que le modèle

L'auteur a vérifié comment OpenAI a développé le jeu de données d'un de ses interlocuteurs. Tel que soutenu par l'entreprise, Databricks s'est appuyé sur les travaux de recherche consacrés à InstructGPT, le projet qui a inspiré sa créationChatGPT.

Pour concevoir InstructGPT, OpenAI a utilisé les services de deux sociétés et de 40 commentateurs pour collecter 13 000 prototypes de paires questions-réponses. Pour arriver à un résultat similaire, Databricks a approché ses 5 000 employés dans 40 pays en leur proposant une sorte de concours, à l'issue duquel les 20 participants les plus actifs ont été récompensés. En une semaine, l'éditeur a pu collecter plus de 15 600 interactions en anglais, en se basant uniquement sur les connaissances de centaines de commentateurs et de Wikipédia. Les paires question-réponse sont divisées en sept catégories : questions ouvertes, questions fermées, extraction d'informations de Wikipédia, résumés de contenu disponible sur Wikipédia, suggestions d'idées, classification et création de texte.

Ce jeu de données, nommé databricks-dolly-15k, est disponible sous la licence CC Attribution-ShareAlike 3.0. Il est clair qu'elle peut être partagée et adaptée dans les mêmes conditions que la licence originale. Par conséquent, vous devez soumettre le projet à Databricks et le republier s'il a été modifié. Cependant, la licence choisie n'exclut en rien la négociation d'un service dérivé.

Bien que la société ne prétende pas fournir le modèle le plus puissant disponible à ce jour, le dirigeant de Databricks pense que l'ensemble de données sera utile à la fois aux entreprises et aux laboratoires de recherche. "Je pense que presque tous les modèles LLM qui sortiront bientôt utiliseront cet ensemble de données", dit-il.

Bien que l'ensemble de données soit intéressant, il n'est pas sans quelques bizarreries. Certaines informations sont déjà obsolètes. Par exemple, un article sur la réforme des retraites en France mentionne le déplacement de l'âge légal de la retraite de 62 à 65 ans en 2030 au lieu de 64.

Répartition des cas d'utilisation commerciale

Selon Ali Ghodsi, plusieurs clients Databricks souhaitent utiliser un projet comme Dolly 2.0 pour leur déploiement. "Un laboratoire pharmaceutique nous a contactés et nous a expliqué qu'il souhaitait créer une base de données électronique pour les dossiers des patients afin de créer des résumés de pathologie", explique-t-il.

Deux compagnies d'assurances auraient l'intention d'utiliser un modèle LLM pour "lire" les sinistres et les réclamations afin d'anticiper le travail des équipes de gestion des risques.

« Un troisième cas d'usage nous a été présenté par une société de marketing qui souhaitait traduire des communiqués de presse dans 80 langues », poursuit Ali Ghodsi.

De son côté, Databricks a développé en interne un outil de support disponible auprès de Slack qui fournit des informations sur l'utilisation de sa plateforme (entre autres) en renvoyant directement à sa documentation.

Suivant dans les idées

Dolly 2.0 ouvre ainsi la voie à l'exploitation commerciale d'un modèle inspiré des travaux d'OpenAI et de Meta. Actuellement, Databricks ne surveille pas ce projet spécifique à l'appareil, par exempled'Azure OpenAIou OpenAI Playground. L'éditeur aime inciter ses clients et prospects à démarrer des projets sur sa plateforme.

"Nous voulons que les gens se forment et améliorent les modèles LLM, mais aussi qu'ils puissent les développer eux-mêmes dans Databricks", confirme Ali Ghodsi, qui y voit une nouvelle charge de travail qu'il faut adapter à la plateforme de traitement des données.

Databricks prévoit toujours de faire des annonces lors de sa conférence annuelle en juin prochain. Selon le PDG, il s'agit de fournir aux entreprises des accélérateurs pour ingérer, former et former leurs données sur la plateformeConclure"simple" Dolly 2.0 et autres modèles. De son côté, AWS vient d'annoncer la préversion de Bedrock, un service dédié au raffinage et à la dérivation de modèles de base.

Databricks tient bon pour l'instant. Prend en charge la transparence concernant l'accès au code source du modèle et aux données de formation, mais également la nécessité d'une utilisation en entreprisemodèles d'IA spécialisés.

"Nous espérons que l'industrie suivra et que de nombreux modèles et ensembles de données seront partagés par la communauté à travers le monde", déclare Ali Ghodsi. "De cette façon, nous pouvons bénéficier d'une plus grande transparence dans cet espace, plutôt que quelques entreprises fortement investies soient les seules à contrôler et à posséder de grands modèles."

Pour en savoir plus sur l'intelligence artificielle et la science des données

  • Databricks fait le point sur sa présence en FrancePar : GaétanRaoul
  • A la recherche d'une IA low-cost, ouverte et économe en énergiePar : GaétanRaoul
  • Datasphere : SAP vise à unir les données sous une même bannièrePar : GaétanRaoul
  • Data Lakehouse : les subtilités qui séparent les éditeursPar : GaétanRaoul
Top Articles
Latest Posts
Article information

Author: Fredrick Kertzmann

Last Updated: 02/26/2023

Views: 6151

Rating: 4.6 / 5 (46 voted)

Reviews: 93% of readers found this page helpful

Author information

Name: Fredrick Kertzmann

Birthday: 2000-04-29

Address: Apt. 203 613 Huels Gateway, Ralphtown, LA 40204

Phone: +2135150832870

Job: Regional Design Producer

Hobby: Nordic skating, Lacemaking, Mountain biking, Rowing, Gardening, Water sports, role-playing games

Introduction: My name is Fredrick Kertzmann, I am a gleaming, encouraging, inexpensive, thankful, tender, quaint, precious person who loves writing and wants to share my knowledge and understanding with you.