Si vous discutez de technologie en 2023, vous ne pouvez tout simplement pas ignorer les sujets tendance tels que l’IA générative et les grands modèles de langage (LLM) qui alimentent les chatbots d’IA. Après la sortie de ChatGPT par OpenAI, la course pour construire le meilleur LLM s’est multipliée. Les grandes entreprises, les petites startups et la communauté open source travaillent au développement des grands modèles de langage les plus avancés. Jusqu’à présent, plus de centaines de LLM ont été publiés, mais lesquels sont les plus capables ? Pour le savoir, suivez notre liste des meilleurs grands modèles de langage (propriétaires et open-source) en 2023.

Table des matières

1. GPT-4

Le modèle GPT-4 d’OpenAI est le meilleur modèle de grand langage (LLM) d’IA disponible en 2023. Sorti en mars 2023, le modèle GPT-4 a présenté d’énormes capacités avec une compréhension complexe du raisonnement, capacité de codage avancée, maîtrise de plusieurs examens académiques, compétences qui présentent des performances de niveau humain, et bien plus encore

En fait, c’est le premier modèle multimodal qui peut accepter à la fois des textes et des images comme entrée. Bien que la capacité multimodale n’ait pas encore été ajoutée à ChatGPT, certains utilisateurs ont accès via Bing Chat, qui est alimenté par le modèle GPT-4.

Grande nouveauté en matière d’IA : Microsoft Bing (qui utilise GPT-4 en mode créatif) accepte les images en entrée.

Les résultats sont impressionnants. Je lui ai donné un mème, il pouvait comprendre le contexte et lire le texte ! Une nouvelle dimension de l’utilisation de l’IA vient de s’ouvrir. Attendez-vous donc à un déluge de fils d’influence sur l’IA sur Twitter… pic.twitter.com/pshP6J44tK— Ethan Mollick (@emollick) 21 juin 2023

À part à partir de là, GPT-4 est l’un des rares LLM à avoir abordé les hallucinations et amélioré la factualité d’un mile. Par rapport à ChatGPT-3.5, le modèle GPT-4 obtient près de 80 % d’évaluations factuelles dans plusieurs catégories. OpenAI a également travaillé d’arrache-pied pour rendre le modèle GPT-4 plus aligné sur les valeurs humaines en utilisant l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) et des tests contradictoires via des experts du domaine.

Le modèle GPT-4 a été formé sur plus de 1 000 milliards de paramètres et prend en charge une longueur de contexte maximale de 32 768 jetons. Jusqu’à présent, nous n’avions pas beaucoup d’informations sur l’architecture interne de GPT-4, mais récemment George Hotz de The Tiny Corp révélé GPT-4 est un modèle de mélange avec 8 modèles disparates ayant chacun 220 milliards de paramètres. Fondamentalement, ce n’est pas un grand modèle dense, comme on l’a compris précédemment.

GPT-4

Enfin, vous pouvez utiliser les plugins ChatGPT et naviguer sur le Web avec Bing en utilisant le modèle GPT-4. Les seuls inconvénients sont qu’il est lent à répondre et que le temps d’inférence est beaucoup plus élevé, ce qui oblige les développeurs à utiliser l’ancien modèle GPT-3.5. Dans l’ensemble, le modèle OpenAI GPT-4 est de loin le meilleur LLM que vous puissiez utiliser en 2023, et je vous recommande fortement de vous abonner à ChatGPT Plus si vous avez l’intention de l’utiliser pour un travail sérieux. Cela coûte 20 $, mais si vous ne voulez pas payer, vous pouvez utiliser ChatGPT 4 gratuitement à partir de portails tiers.

Découvrez GPT-4

2. GPT-3.5

Après GPT 4, OpenAI reprend la deuxième place avec GPT-3.5. Il s’agit d’un LLM à usage général similaire au GPT-4 mais qui manque d’expertise dans des domaines spécifiques. Parlons d’abord des avantages, c’est un modèle incroyablement rapide et génère une réponse complète en quelques secondes.

Que vous lanciez des tâches créatives comme rédiger un essai avec ChatGPT ou élaborer un plan d’affaires pour gagner de l’argent avec ChatGPT, le modèle GPT-3.5 fait un travail magnifique. De plus, la société a récemment publié une plus grande longueur de contexte de 16K pour le modèle GPT-3.5-turbo. Sans oublier, son utilisation est également gratuite et il n’y a pas de restrictions horaires ou quotidiennes.

GPT-3.5

Cela dit, son plus gros inconvénient est que le GPT-3.5 hallucine beaucoup et crache fréquemment de fausses informations. Donc, pour un travail de recherche sérieux, je ne suggérerai pas de l’utiliser. Néanmoins, pour les questions de codage de base, la traduction, la compréhension des concepts scientifiques et les tâches créatives, le GPT-3.5 est un modèle assez bon.

Dans le benchmark HumanEval, le modèle GPT-3.5 a obtenu un score de 48,1 %, tandis que GPT-4 a obtenu un score de 67 %, ce qui est le plus élevé pour tous les modèles de grande langue à usage général. Gardez à l’esprit que GPT-3.5 a été formé sur 175 milliards de paramètres tandis que GPT-4 est formé sur plus de 1 000 milliards de paramètres.

Découvrez GPT-3.5

3. PaLM 2 (Bison-001)

Ensuite, nous avons le modèle d’IA PaLM 2 de Google, qui est classé parmi les meilleurs grands modèles de langage de 2023. Google s’est concentré sur le raisonnement de bon sens, la logique formelle, les mathématiques, et un codage avancé dans plus de 20 langues sur le modèle PaLM 2. On dit que le plus grand modèle PaLM 2 a été formé sur 540 milliards de paramètres et a une longueur de contexte maximale de 4096 jetons.

Google a annoncé quatre modèles basés sur PaLM 2 dans différentes tailles (Gecko, Otter, Bison et Unicorn). Dont, Bison est actuellement disponible, et il a obtenu 6,40 au test MT-Bench tandis que GPT-4 a obtenu un énorme 8,99 points.

Google Bard fonctionnant sur PaLM 2

Cela dit, dans des évaluations de raisonnement comme WinoGrande, StrategyQA, XCOPA et autres tests, PaLM 2 fait un travail remarquable et surpasse GPT-4. C’est aussi un modèle multilingue et peut comprendre des idiomes, des énigmes et des textes nuancés de différentes langues. C’est quelque chose avec lequel d’autres LLM ont du mal.

Un autre avantage de PaLM 2 est qu’il est très rapide à répondre et offre trois réponses à la fois. Vous pouvez suivre notre article et tester le modèle PaLM 2 (Bison-001) sur la plateforme Vertex AI de Google. Quant aux consommateurs, vous pouvez utiliser Google Bard qui tourne sur PaLM 2.

Découvrez PaLM 2

4. Claude v1

Au cas où vous ne le sauriez pas, Claude est un puissant LLM développé par Anthropic, qui a été soutenu par Google. Il a été cofondé par d’anciens employés d’OpenAI et son approche consiste à créer des assistants IA qui sont utiles, honnêtes et inoffensifs. Dans plusieurs tests de référence, les modèles Claude v1 et Claude Instant d’Anthropic se sont révélés très prometteurs. En fait, Claude v1 est plus performant que PaLM 2 dans les tests MMLU et MT-Bench.

Claude via Slack

Il est proche du GPT-4 et obtient un score de 7,94 au test MT-Bench alors que le GPT-4 obtient un score de 8,99. Dans le benchmark MMLU également, Claude v1 obtient 75,6 points et GPT-4 obtient 86,4. Anthropic est également devenue la première entreprise à proposer 100 000 jetons comme la plus grande fenêtre de contexte dans son modèle Claude-instant-100 k. Vous pouvez essentiellement charger près de 75 000 mots dans une seule fenêtre. C’est complètement fou, non ? Si vous êtes intéressé, vous pouvez consulter notre tutoriel sur la façon d’utiliser Anthropic Claude dès maintenant.

Découvrez Claude v1

5. Cohere

Cohere est une startup d’IA fondée par d’anciens employés de Google qui ont travaillé dans l’équipe Google Brain. L’un de ses co-fondateurs, Aidan Gomez, a participé à l’article”Attention is all you Need”qui a présenté l’architecture Transformer. Contrairement à d’autres sociétés d’IA, Cohere est là pour les entreprises et résout les cas d’utilisation de l’IA générative pour les entreprises. Cohere a un certain nombre de modèles de petite à grande taille-ayant seulement 6B paramètres à de grands modèles entraînés sur 52B paramètres.

Le récent modèle Cohere Command est reçu des éloges pour sa précision et sa robustesse. Selon Standford HELM, le modèle Cohere Command a le score le plus élevé pour précision parmi ses pairs. En dehors de cela, des entreprises comme Spotify, Jasper, HyperWrite, etc. utilisent toutes le modèle de Cohere pour offrir une expérience d’IA.

En termes de prix, Cohere facture 15 $ pour générer 1 million de jetons, tandis que le modèle turbo d’OpenAI facture 4 $ pour le même nombre de jetons. Néanmoins, en termes de précision, c’est mieux que les autres LLM. Donc, si vous dirigez une entreprise et recherchez le meilleur LLM à intégrer dans votre produit, vous pouvez jeter un œil aux modèles de Cohere.

Découvrez Cohere

6. Falcon

Falcon est le premier grand modèle de langage open source de cette liste, et il a surclassé tous les modèles open source publiés jusqu’à présent, y compris LLaMA, StableLM, MPT, et plus encore. Il a été développé par le Technology Innovation Institute (TII), UAE. La meilleure chose à propos de Falcon est qu’il a été open source avec la licence Apache 2.0, ce qui signifie que vous pouvez utiliser le modèle à des fins commerciales. Il n’y a pas non plus de redevances ou de restrictions.

Jusqu’à présent, le TII a publié deux modèles Falcon, qui sont entraînés sur les paramètres 40B et 7B. Le développeur suggère qu’il s’agit de modèles bruts, mais si vous souhaitez les utiliser pour discuter, vous devez opter pour le modèle Falcon-40B-Instruct, affiné pour la plupart des cas d’utilisation.

Le modèle Falcon a été principalement formé en anglais, allemand, espagnol et français, mais il peut également fonctionner en italien, portugais, polonais, néerlandais, roumain, tchèque et suédois. Donc, si vous êtes intéressé par les modèles d’IA open source, jetez d’abord un coup d’œil à Falcon.

Découvrez Falcon

7. LLaMA

Depuis que les modèles LLaMA ont été divulgués en ligne, Meta a opté pour l’open source. Il a officiellement publié des modèles LLaMA de différentes tailles, allant de 7 milliards de paramètres à 65 milliards de paramètres. Selon Meta, son modèle LLaMA-13B surpasse le modèle GPT-3 d’OpenAI qui a été formé sur 175 milliards de paramètres. De nombreux développeurs utilisent LLaMA pour affiner et créer certains des meilleurs modèles open source. Cela dit, gardez à l’esprit que LLaMA a été publié à des fins de recherche uniquement et ne peut pas être utilisé commercialement contrairement au modèle Falcon du TII.

Parlant du modèle LLaMA 65B, il a montré une capacité étonnante dans la plupart des cas d’utilisation. Il se classe parmi les 10 meilleurs modèles du classement Open LLM sur Hugging Face. Meta dit qu’il n’a utilisé aucun matériel propriétaire pour former le modèle. Au lieu de cela, la société a utilisé des données accessibles au public de CommonCrawl, C4, GitHub, ArXiv, Wikipedia, StackExchange, etc.

En termes simples, après la publication du modèle LLaMA par Meta, la communauté open source a vu une innovation rapide et a proposé de nouvelles techniques pour créer des modèles plus petits et plus efficaces.

Découvrez LLaMA

8. Guanaco-65B

Parmi les nombreux modèles dérivés de LLaMA, Guanaco-65B s’est avéré être le meilleur LLM open-source, juste après le modèle Falcon. Au test MMLU, il a obtenu un score de 52,7 alors que le modèle Falcon a obtenu un score de 54,1. De même, dans l’évaluation TruthfulQA, Guanaco a obtenu un score de 51,3 et Falcon était un cran plus haut à 52,5. Il existe quatre versions de Guanaco: les modèles 7B, 13B, 33B et 65B. Tous les modèles ont été affinés sur l’ensemble de données OASST1 par Tim Dettmers et d’autres chercheurs.

En ce qui concerne la façon dont Guanaco a été affiné, les chercheurs ont mis au point une nouvelle technique appelée QLoRA qui réduit efficacement l’utilisation de la mémoire tout en préservant les performances complètes des tâches 16 bits. Sur le benchmark Vicuna, le modèle Guanaco-65B surpasse même ChatGPT (modèle GPT-3.5) avec une taille de paramètre beaucoup plus petite.

La meilleure partie est que le modèle 65B s’est entraîné sur un seul GPU ayant 48 Go de VRAM en seulement 24 heures. Cela montre à quel point les modèles open source sont parvenus à réduire les coûts et à maintenir la qualité. Pour résumer, si vous voulez essayer un LLM local hors ligne, vous pouvez certainement essayer les modèles Guanaco.

Découvrez Guanaco-65B

9. Vicuna 33B

Vicuna est un autre LLM open source puissant qui a été développé par LMSYS. Il a été dérivé de LLaMA comme de nombreux autres modèles open source. Il a été affiné à l’aide d’instructions supervisées et les données de formation ont été collectées à partir de sharegpt.com, un portail où les utilisateurs partagent leurs incroyables conversations ChatGPT. C’est un grand modèle de langage auto-régressif et est formé sur 33 milliards de paramètres.

Dans le propre test MT-Bench de LMSYS, il a obtenu 7,12 tandis que le meilleur modèle propriétaire, GPT-4, a obtenu 8,99 points. Dans le test MMLU également, il a obtenu 59,2 points et GPT-4 a marqué 86,4 points. Bien qu’il s’agisse d’un modèle beaucoup plus petit, les performances de Vicuna sont remarquables. Vous pouvez consulter la démo et interagir avec le chatbot en cliquant sur le lien ci-dessous.

Découvrez Vicuna 33B

10. MPT-30B

MPT-30B est un autre LLM open source qui concurrence les modèles dérivés de LLaMA. Il a été développé par Mosaic ML et affiné sur un large corpus de données provenant de différentes sources. Il utilise des ensembles de données de ShareGPT-Vicuna, Camel-AI, GPTeacher, Guanaco, Baize et d’autres sources. La meilleure partie de ce modèle open source est qu’il a une longueur de contexte de 8K jetons.

De plus, il surpasse le modèle GPT-3 d’OpenAI et obtient un score de 6,39 au test MT-Bench de LMSYS. Si vous recherchez un petit LLM à exécuter localement, le modèle MPT-30B est un excellent choix.

Découvrez le MPT-30B

11. 30B-Lazare

Le modèle 30B-Lazarus a été développé par CalderaAI et utilise LLaMA comme modèle de base. Le développeur a utilisé des ensembles de données optimisés pour LoRA à partir de plusieurs modèles, notamment Manticore, SuperCOT-LoRA, SuperHOT, GPT-4 Alpaca-LoRA, etc. En conséquence, le modèle fonctionne bien mieux sur de nombreux benchmarks LLM. Il a marqué 81,7 en HellaSwag et 45,2 en MMLU, juste après Falcon et Guanaco. Si votre cas d’utilisation est principalement la génération de texte et non le chat conversationnel, le modèle 30B Lazarus peut être un bon choix.

Découvrez 30B-Lazarus

12. WizardLM

WizardLM est notre prochain grand modèle de langage open source conçu pour suivre des instructions complexes. Une équipe de chercheurs en IA a mis au point une approche Evol-instruct pour réécrire l’ensemble initial d’instructions en instructions plus complexes. Et les données d’instruction générées sont utilisées pour affiner le modèle LLaMA.

Grâce à cette approche, le modèle WizardLM fonctionne bien mieux sur les benchmarks et les utilisateurs préfèrent la sortie de WizardLM aux réponses ChatGPT. Au test MT-Bench, WizardLM a obtenu 6,35 points et 52,3 au test MMLU. Dans l’ensemble, pour seulement 13 milliards de paramètres, WizardLM fait un très bon travail et ouvre la porte à des modèles plus petits.

Découvrez WizardLM

Bonus : GPT4All

GPT4ALL est un projet géré par Nomic AI. Je le recommande non seulement pour son modèle interne, mais aussi pour exécuter des LLM locaux sur votre ordinateur sans aucune connexion GPU ou Internet dédiée. Il a développé un modèle 13B Snoozy qui fonctionne plutôt bien. Je l’ai testé plusieurs fois sur mon ordinateur et il génère des réponses assez rapidement, étant donné que j’ai un PC d’entrée de gamme. J’ai également utilisé PrivateGPT sur GPT4All, et il a effectivement répondu à partir de l’ensemble de données personnalisé.

En dehors de cela, il abrite 12 modèles open-source de différentes organisations. La plupart d’entre eux sont construits sur les paramètres 7B et 13B et pèsent environ 3 Go à 8 Go. Mieux encore, vous obtenez un programme d’installation GUI où vous pouvez sélectionner un modèle et commencer à l’utiliser immédiatement. Pas de bricolage avec le terminal. En termes simples, si vous souhaitez exécuter un LLM local sur votre ordinateur de manière conviviale, GPT4All est la meilleure façon de le faire.

Découvrez GPT4All

Laisser un commentaire

Le RTX 4060 Ti est enfin là, arrivant avec la base RTX 4060 à un Un prix suffisamment attractif pour que les joueurs envisagent de mettre à niveau leur carte graphique. Mais devriez-vous? Nous allons approfondir et comparer le RTX 4060 […]

Il y a beaucoup de débats sur Internet à propos de l’AR (réalité augmentée) et de la VR (réalité virtuelle), donc je n’ajouterai pas plus de carburant à le feu, mais l’une des choses que nous avons remarquées lors de l’utilisation du Nreal Air est que le VR […]

Il y a des choix de conception discutables dans Redfall, un méli-mélo de la célèbre formule Arkane à moitié cuite. J’adore les jeux créés par Arkane Studios, Dishonored devenant un titre que je revisite de temps en temps pour son gameplay émergent unique. Et […]

Categories: IT Info