LLaMA : la famille de modeles IA open-source de Meta
- Editeur
- Meta AI
- Generation actuelle
- Llama 4 (Scout, Maverick, Behemoth)
- Architecture
- Mixture-of-Experts (MoE) nativement multimodal
- Parametres
- 17B actifs (Scout/Maverick) a 288B actifs (Behemoth)
- Contexte
- Jusqu’a 10M tokens (Scout)
- Licence
- Llama Community License (usage commercial autorise)
- Deploiement
- Cloud, on-premise, edge
- URL
- llama.com
Qu’est-ce que LLaMA ?
LLaMA est la contribution majeure de Meta a l’ecosysteme IA open-source. En rendant publics des modeles de langage performants, Meta a democratise l’acces aux grands modeles de langage et accelere l’innovation dans toute l’industrie.
Chaque generation de LLaMA a repousse les limites de ce qu’un modele open-source peut accomplir : LLaMA 1 a prouve que des modeles plus petits pouvaient rivaliser avec GPT-3, LLaMA 2 a ouvert l’usage commercial, LLaMA 3 a atteint le niveau des meilleurs modeles proprietaires, et Llama 4 a introduit le MoE multimodal natif.
En mars 2026, Llama 4 est la generation active, avec trois modeles : Scout (leger, 10M tokens de contexte), Maverick (intermediaire, 128 experts) et Behemoth (frontier, encore en entrainement).
Llama 4 : la generation actuelle
Llama 4 Scout
Scout est un modele MoE avec 17 milliards de parametres actifs et 16 experts. Son atout majeur : une fenetre de contexte de 10 millions de tokens, la plus grande du marche. Il tient sur un seul GPU NVIDIA H100, ce qui le rend deployable a moindre cout.
Malgre sa taille compacte, Scout surpasse tous les modeles LLaMA precedents et rivalise avec Gemini Flash sur une large gamme de benchmarks. Il est particulierement adapte a l’analyse de tres longs documents, aux bases de code entieres et aux conversations a contexte etendu.
Llama 4 Maverick
Maverick partage les 17 milliards de parametres actifs de Scout mais utilise 128 experts (contre 16 pour Scout). Cette configuration lui confere une capacite de connaissance et de raisonnement nettement superieure.
Maverick surpasse GPT-4o et Gemini 2.0 Flash sur une large gamme de benchmarks publics. C’est le modele de choix pour les taches qui necessitent a la fois de la qualite et une inference raisonnable.
Llama 4 Behemoth
Behemoth est le modele frontier de Meta : 288 milliards de parametres actifs avec 16 experts. Il est encore en cours d’entrainement en mars 2026. Meta le positionne comme l’un des LLM les plus puissants au monde, concurrent direct de Claude Opus 4.6 et GPT-5.4.
| Modele | Params actifs | Experts | Contexte | Statut |
|---|---|---|---|---|
| Llama 4 Scout | 17B | 16 | 10M tokens | Disponible |
| Llama 4 Maverick | 17B | 128 | 1M tokens | Disponible |
| Llama 4 Behemoth | 288B | 16 | A confirmer | En entrainement |
Multimodalite native
Llama 4 est la premiere generation LLaMA nativement multimodale. Les modeles comprennent le texte et les images sans module externe, grace a un entrainement unifie sur des donnees texte et visuelles.
Meta AI, l’assistant IA de Meta deploye sur WhatsApp, Messenger et Instagram, utilise Llama 4 dans 40 pays pour fournir des reponses multimodales aux utilisateurs.
Historique des generations LLaMA
| Generation | Date | Tailles | Avancee cle |
|---|---|---|---|
| LLaMA 1 | Fevrier 2023 | 7B, 13B, 33B, 65B | Premier modele open de Meta |
| LLaMA 2 | Juillet 2023 | 7B, 13B, 70B | Usage commercial, RLHF, Chat |
| LLaMA 3 | Avril 2024 | 8B, 70B, 405B | Niveau GPT-4, 128K contexte |
| Llama 4 | Avril 2025 | Scout, Maverick, Behemoth | MoE natif, multimodal, 10M contexte |
Deployer LLaMA localement
L’un des principaux avantages de LLaMA est sa deployabilite locale. Plusieurs methodes sont disponibles selon vos besoins.
Ollama reste la methode la plus simple pour les developpeurs individuels : ollama run llama4-scout telecharge et lance le modele en une commande. vLLM est recommande pour la production a fort debit. TGI (Text Generation Inference) de Hugging Face offre un bon equilibre entre facilite et performance.
Llama 4 Scout tient sur un seul H100 (80 Go VRAM), ce qui le rend accessible aux entreprises sans infrastructure GPU massive. Maverick, avec ses 128 experts, necessite davantage de ressources. Behemoth, quand il sera disponible, necessiterait une configuration multi-GPU substantielle.
Ecosysteme et communaute
LLaMA a engendre un ecosysteme massif. Des milliers de modeles derives (fine-tunes) sont disponibles sur Hugging Face. Des projets comme Code Llama (specialisation code) ont ete construits sur la base LLaMA. La communaute open-source a produit des quantifications, des adaptations LoRA et des variantes optimisees pour des cas d’usage specifiques.
Les modeles LLaMA sont integres dans la plupart des outils et frameworks IA : Ollama, LangChain, LlamaIndex, n8n, et de nombreux IDE et assistants de code.
Licence et usage commercial
Les modeles Llama 4 sont distribues sous la Llama Community License, qui autorise l’usage commercial sans restriction pour la plupart des entreprises. La seule limitation concerne les entreprises avec plus de 700 millions d’utilisateurs actifs mensuels, qui doivent obtenir une licence specifique aupres de Meta.
Cette licence est plus permissive que celle de la plupart des modeles proprietaires mais plus restrictive que l’Apache 2.0 de Mistral. En pratique, elle convient a l’immense majorite des entreprises et des developpeurs.
FAQ LLaMA
LLaMA est-il gratuit ?
Oui, les modeles LLaMA sont gratuits a telecharger et a utiliser, y compris pour un usage commercial. Vous pouvez les deployer localement sans frais de licence. Les seuls couts sont le hardware (GPU) ou les frais d’API si vous utilisez un provider cloud.
Quelle est la difference entre LLaMA et Llama ?
C’est la meme famille. « LLaMA » (majuscules) est le nom original (LLaMA 1, 2, 3). Meta a simplifie l’orthographe en « Llama » a partir de Llama 4. Les deux designent les modeles open-source de Meta AI.
Quel Llama choisir pour un projet en 2026 ?
Llama 4 Scout pour les cas necessitant un tres long contexte (jusqu’a 10M tokens) ou un deploiement sur un seul GPU. Llama 4 Maverick pour la meilleure qualite parmi les modeles Llama disponibles. Pour les projets necessitant un modele tres compact, les versions LLaMA 3 8B restent excellentes.
LLaMA peut-il remplacer ChatGPT ?
En termes de qualite brute, Llama 4 Maverick rivalise avec GPT-4o. Pour des performances de niveau GPT-5.4 ou Claude Opus 4.6, il faudra attendre Llama 4 Behemoth. L’avantage de LLaMA est le controle total : deploiement local, pas de dependance API, confidentialite des donnees.
Peut-on fine-tuner LLaMA ?
Oui, le fine-tuning est l’un des cas d’usage les plus populaires de LLaMA. Des techniques comme LoRA et QLoRA permettent de fine-tuner des modeles LLaMA sur un seul GPU consumer. Des milliers de modeles fine-tunes sont disponibles sur Hugging Face.