LLaMA : la famille de modeles IA open-source de Meta

Definition rapide LLaMA (Large Language Model Meta AI) est la famille de modeles de langage open-source developpee par Meta (anciennement Facebook). Lancee en fevrier 2023, elle est devenue la reference mondiale des modeles open-weight, avec des versions allant de 1B a 288B parametres. La derniere generation, Llama 4 (avril 2025), introduit une architecture Mixture-of-Experts nativement multimodale.

Editeur: Meta AI
Generation actuelle: Llama 4 (Scout, Maverick, Behemoth)
Architecture: Mixture-of-Experts (MoE) nativement multimodal
Parametres: 17B actifs (Scout/Maverick) a 288B actifs (Behemoth)
Contexte: Jusqu’a 10M tokens (Scout)
Licence: Llama Community License (usage commercial autorise)
Deploiement: Cloud, on-premise, edge
URL: llama.com

Qu’est-ce que LLaMA ?

LLaMA est la contribution majeure de Meta a l’ecosysteme IA open-source. En rendant publics des modeles de langage performants, Meta a democratise l’acces aux grands modeles de langage et accelere l’innovation dans toute l’industrie.

Chaque generation de LLaMA a repousse les limites de ce qu’un modele open-source peut accomplir : LLaMA 1 a prouve que des modeles plus petits pouvaient rivaliser avec GPT-3, LLaMA 2 a ouvert l’usage commercial, LLaMA 3 a atteint le niveau des meilleurs modeles proprietaires, et Llama 4 a introduit le MoE multimodal natif.

En mars 2026, Llama 4 est la generation active, avec trois modeles : Scout (leger, 10M tokens de contexte), Maverick (intermediaire, 128 experts) et Behemoth (frontier, encore en entrainement).

Llama 4 : la generation actuelle

Llama 4 Scout

Scout est un modele MoE avec 17 milliards de parametres actifs et 16 experts. Son atout majeur : une fenetre de contexte de 10 millions de tokens, la plus grande du marche. Il tient sur un seul GPU NVIDIA H100, ce qui le rend deployable a moindre cout.

Malgre sa taille compacte, Scout surpasse tous les modeles LLaMA precedents et rivalise avec Gemini Flash sur une large gamme de benchmarks. Il est particulierement adapte a l’analyse de tres longs documents, aux bases de code entieres et aux conversations a contexte etendu.

Llama 4 Maverick

Maverick partage les 17 milliards de parametres actifs de Scout mais utilise 128 experts (contre 16 pour Scout). Cette configuration lui confere une capacite de connaissance et de raisonnement nettement superieure.

Maverick surpasse GPT-4o et Gemini 2.0 Flash sur une large gamme de benchmarks publics. C’est le modele de choix pour les taches qui necessitent a la fois de la qualite et une inference raisonnable.

Llama 4 Behemoth

Behemoth est le modele frontier de Meta : 288 milliards de parametres actifs avec 16 experts. Il est encore en cours d’entrainement en mars 2026. Meta le positionne comme l’un des LLM les plus puissants au monde, concurrent direct de Claude Opus 4.6 et GPT-5.4.

Modele	Params actifs	Experts	Contexte	Statut
Llama 4 Scout	17B	16	10M tokens	Disponible
Llama 4 Maverick	17B	128	1M tokens	Disponible
Llama 4 Behemoth	288B	16	A confirmer	En entrainement

Multimodalite native

Llama 4 est la premiere generation LLaMA nativement multimodale. Les modeles comprennent le texte et les images sans module externe, grace a un entrainement unifie sur des donnees texte et visuelles.

Meta AI, l’assistant IA de Meta deploye sur WhatsApp, Messenger et Instagram, utilise Llama 4 dans 40 pays pour fournir des reponses multimodales aux utilisateurs.

Historique des generations LLaMA

Generation	Date	Tailles	Avancee cle
LLaMA 1	Fevrier 2023	7B, 13B, 33B, 65B	Premier modele open de Meta
LLaMA 2	Juillet 2023	7B, 13B, 70B	Usage commercial, RLHF, Chat
LLaMA 3	Avril 2024	8B, 70B, 405B	Niveau GPT-4, 128K contexte
Llama 4	Avril 2025	Scout, Maverick, Behemoth	MoE natif, multimodal, 10M contexte

Deployer LLaMA localement

L’un des principaux avantages de LLaMA est sa deployabilite locale. Plusieurs methodes sont disponibles selon vos besoins.

Ollama reste la methode la plus simple pour les developpeurs individuels : ollama run llama4-scout telecharge et lance le modele en une commande. vLLM est recommande pour la production a fort debit. TGI (Text Generation Inference) de Hugging Face offre un bon equilibre entre facilite et performance.

Llama 4 Scout tient sur un seul H100 (80 Go VRAM), ce qui le rend accessible aux entreprises sans infrastructure GPU massive. Maverick, avec ses 128 experts, necessite davantage de ressources. Behemoth, quand il sera disponible, necessiterait une configuration multi-GPU substantielle.

Astuce Polydesk Pour experimenter avec Llama 4 sans infrastructure GPU, utilisez les providers cloud comme Together AI, Fireworks AI ou Groq qui hebergent les modeles Llama avec une facturation au token. C’est la maniere la plus rapide de tester avant d’investir dans du hardware.

Ecosysteme et communaute

LLaMA a engendre un ecosysteme massif. Des milliers de modeles derives (fine-tunes) sont disponibles sur Hugging Face. Des projets comme Code Llama (specialisation code) ont ete construits sur la base LLaMA. La communaute open-source a produit des quantifications, des adaptations LoRA et des variantes optimisees pour des cas d’usage specifiques.

Les modeles LLaMA sont integres dans la plupart des outils et frameworks IA : Ollama, LangChain, LlamaIndex, n8n, et de nombreux IDE et assistants de code.

Licence et usage commercial

Les modeles Llama 4 sont distribues sous la Llama Community License, qui autorise l’usage commercial sans restriction pour la plupart des entreprises. La seule limitation concerne les entreprises avec plus de 700 millions d’utilisateurs actifs mensuels, qui doivent obtenir une licence specifique aupres de Meta.

Cette licence est plus permissive que celle de la plupart des modeles proprietaires mais plus restrictive que l’Apache 2.0 de Mistral. En pratique, elle convient a l’immense majorite des entreprises et des developpeurs.

FAQ LLaMA

LLaMA est-il gratuit ?

Oui, les modeles LLaMA sont gratuits a telecharger et a utiliser, y compris pour un usage commercial. Vous pouvez les deployer localement sans frais de licence. Les seuls couts sont le hardware (GPU) ou les frais d’API si vous utilisez un provider cloud.

Quelle est la difference entre LLaMA et Llama ?

C’est la meme famille. « LLaMA » (majuscules) est le nom original (LLaMA 1, 2, 3). Meta a simplifie l’orthographe en « Llama » a partir de Llama 4. Les deux designent les modeles open-source de Meta AI.

Quel Llama choisir pour un projet en 2026 ?

Llama 4 Scout pour les cas necessitant un tres long contexte (jusqu’a 10M tokens) ou un deploiement sur un seul GPU. Llama 4 Maverick pour la meilleure qualite parmi les modeles Llama disponibles. Pour les projets necessitant un modele tres compact, les versions LLaMA 3 8B restent excellentes.

LLaMA peut-il remplacer ChatGPT ?

En termes de qualite brute, Llama 4 Maverick rivalise avec GPT-4o. Pour des performances de niveau GPT-5.4 ou Claude Opus 4.6, il faudra attendre Llama 4 Behemoth. L’avantage de LLaMA est le controle total : deploiement local, pas de dependance API, confidentialite des donnees.

Peut-on fine-tuner LLaMA ?

Oui, le fine-tuning est l’un des cas d’usage les plus populaires de LLaMA. Des techniques comme LoRA et QLoRA permettent de fine-tuner des modeles LLaMA sur un seul GPU consumer. Des milliers de modeles fine-tunes sont disponibles sur Hugging Face.