LlamaIndex

LlamaIndex est un framework open source (Python et TypeScript) spécialisé dans la construction d’agents IA sur des données non structurées, offrant les meilleures abstractions du marché pour le RAG (Retrieval-Augmented Generation), le parsing documentaire, l’indexation et les workflows agentiques.

Si votre cas d’usage tourne autour des documents (PDF, PowerPoints, tableurs, images, emails), LlamaIndex est probablement le meilleur point de départ. Le framework excelle là où les alternatives sont plus généralistes : ingestion de données complexes, chunking hiérarchique, recherche hybride (vectorielle + BM25), et agents capables de raisonner sur des corpus documentaires volumineux. C’est le cadre technique derrière les solutions d’IA documentaire de Salesforce (Agentforce), Rakuten, Carlyle, et plus de 90 entreprises du Fortune 500.

Catégorie: Framework open source pour RAG et agents documentaires
Fondateurs: Jerry Liu (CEO, ex-Uber Research), Simon Suo (CTO, ex-Uber Research), 2022
Siège: San Francisco
Financement: 27,5 M$ au total (Series A : 19 M$, mars 2025, Norwest Venture Partners + Greylock)
Langages: Python, TypeScript
GitHub: ~40 000 stars
Téléchargements: 3M+/mois (PyPI, multi-packages)
Intégrations: 300+ packages (LLMs, embeddings, vector stores, data connectors)
Utilisateurs: 300 000+ développeurs, 90+ Fortune 500
Licence: MIT
Produits commerciaux: LlamaCloud (SaaS), LlamaParse (parsing), LlamaSheets, LlamaSplit, LlamaAgents
Verdict: Le meilleur framework pour le RAG et le traitement documentaire. Plus concis que LangChain pour ces cas d’usage
URL: llamaindex.ai

De projet open source à plateforme enterprise

Jerry Liu a lancé LlamaIndex (alors « GPT Index ») en novembre 2022, en pleine effervescence post-ChatGPT. Son intuition : les LLM sont puissants pour générer du texte, mais incapables de raisonner sur des données propriétaires sans infrastructure dédiée. Il fallait un framework pour connecter les données d’entreprise aux modèles de langage.

Le projet a rapidement gagné en traction dans la communauté open source. En juin 2023, un premier seed de 8,5 M$ (Greylock). En mars 2025, un Series A de 19 M$ (Norwest Venture Partners + Greylock), portant le total à 27,5 M$. À cette occasion, LlamaIndex a lancé LlamaCloud en disponibilité générale, marquant la transition d’un framework open source à une plateforme enterprise complète.

L’évolution la plus significative est le passage de « framework RAG » à « plateforme d’agents documentaires ». LlamaIndex ne se limite plus à l’indexation et la recherche : les Workflows (moteur d’orchestration event-driven) et les agents documentaires permettent de construire des pipelines IA complets qui parsent, extraient, indexent, recherchent, raisonnent et agissent sur des documents complexes.

Architecture et composants

LlamaIndex Core

Le cœur du framework fournit les abstractions fondamentales :

Data connectors (loaders) : ingestion de données depuis plus de 130 formats de fichiers (PDF, Word, PowerPoint, Excel, images, HTML, JSON, CSV), des APIs (Notion, Slack, Google Drive, S3), et des bases de données (SQL, MongoDB). Chaque loader transforme les données brutes en « Documents » structurés.

Indices : structures de données optimisées pour différents types de recherche. Le VectorStoreIndex est le plus courant (recherche par similarité sémantique), mais LlamaIndex propose aussi des indices de type liste, arbre, knowledge graph, et des index composites qui combinent plusieurs stratégies.

Retrievers : composants de recherche qui interrogent les indices. LlamaIndex offre des retrievers vectoriels, BM25 (keyword), hybrides (combinaison des deux), et des retrievers personnalisés. La recherche hybride, combinant similarité sémantique et correspondance par mots-clés, est une fonctionnalité pré-construite qui nécessite beaucoup plus de code dans LangChain.

Query engines : interfaces de haut niveau qui combinent retriever + LLM pour répondre à des questions sur vos données. Le query engine gère la formulation du prompt, l’injection du contexte récupéré, et la génération de la réponse. En quelques lignes de code, vous avez un système RAG fonctionnel.

Chunking avancé : LlamaIndex propose des stratégies de découpage de documents plus sophistiquées que la concurrence. Le chunking hiérarchique (où les nœuds parents contiennent des résumés de leurs nœuds enfants) est une fonctionnalité native configurable en quelques lignes. Cela améliore significativement la qualité de la retrieval sur les documents longs.

Workflows

Workflows est le moteur d’orchestration event-driven et asynchrone de LlamaIndex. Il permet de construire des pipelines multi-étapes complexes avec des événements, des états, du parallélisme et du human-in-the-loop. C’est la réponse de LlamaIndex à LangGraph, mais avec une approche différente : event-driven (par événements) plutôt que graph-based (par graphe d’état).

Depuis début 2026, Workflows intègre le support du protocole ACP (Agent Client Protocol) pour la communication entre agents, les outils de système de fichiers, les serveurs MCP, et la mémoire persistante. Les agents durables avec DBOS assurent la reprise après crash sans checkpoints manuels.

Workflows vs. LangGraph La principale différence : Workflows est stateless par défaut (vous gérez l’état explicitement via l’objet Context), tandis que LangGraph est stateful par défaut (l’état est un dictionnaire typé qui circule dans le graphe). Pour les agents de longue durée avec un état complexe persistant entre sessions, le modèle de checkpointing de LangGraph est plus mature. Pour les pipelines documentaires event-driven, Workflows est plus naturel.

Intégrations

LlamaIndex propose 300+ packages d’intégration sur LlamaHub, organisés en catégories :

LLMs : OpenAI, Anthropic (Claude Opus 4.6, Sonnet 4.6), Google (Gemini 3.1), Mistral, Cohere, Replicate, Ollama (local), et bien d’autres. Embeddings : OpenAI, Hugging Face, Cohere, Voyage, Bedrock. Vector stores : Pinecone, Weaviate, Qdrant, Chroma, pgvector, Milvus, FAISS. Data connectors : Google Drive, Notion, Slack, S3, Wikipedia, bases SQL, et des dizaines d’autres.

L’architecture modulaire permet d’installer uniquement les packages nécessaires : pip install llama-index-core llama-index-llms-openai llama-index-embeddings-huggingface.

LlamaParse et LlamaCloud

LlamaParse

LlamaParse est le produit phare de la partie commerciale de LlamaIndex. C’est un service de parsing documentaire « agentique » qui transforme des documents non structurés (PDF, PowerPoint, images, documents scannés) en données structurées exploitables par les LLM. Il gère les cas que les parsers classiques ne savent pas traiter : tableaux complexes multi-pages, mises en page imbriquées, images embarquées, notes manuscrites, et plus de 130 formats de fichiers.

LlamaParse v2 (lancé fin 2025) simplifie la configuration avec quatre niveaux : Fast, Cost Effective, Agentic, et Agentic Plus, selon le niveau de complexité documentaire. Les prix ont été réduits de jusqu’à 50 % par rapport à v1.

LlamaCloud

LlamaCloud est la plateforme SaaS enterprise qui regroupe l’ensemble des produits commerciaux :

Parse : OCR agentique et parsing documentaire (130+ formats). Extract : extraction structurée de données depuis des documents, avec schéma défini et scores de confiance. Index : pipeline d’ingestion, d’indexation et de RAG managé. Split (beta) : séparation automatique de documents volumineux en sous-catégories. Sheets (beta) : traitement de tableurs complexes (cellules fusionnées, mises en page cassées, headers multi-lignes) en fichiers Parquet propres. Agents : construction et déploiement d’agents documentaires end-to-end via Workflows et Agent Builder.

LlamaCloud peut être déployé en SaaS ou en VPC privé, avec contrôle d’accès par rôles (RBAC) et SSO.

RAG avec LlamaIndex : pourquoi c’est le meilleur choix

Le RAG est le cas d’usage fondateur de LlamaIndex, et c’est là que le framework maintient son avantage le plus net. Un pipeline RAG complet en 5 lignes :

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader(« ./data »).load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query(« Quel est le chiffre d’affaires du Q3 ? »)
print(response)

Ces 5 lignes chargent vos documents, les découpent en chunks, les vectorisent, les indexent, et créent une interface de requête. Le même résultat avec LangChain nécessite l’assemblage manuel du text splitter, du modèle d’embedding, du vector store, du retriever, et du prompt template. LlamaIndex encapsule tout cela dans des abstractions de haut niveau.

Au-delà du RAG basique, LlamaIndex offre des fonctionnalités avancées :

Chunking hiérarchique : les nœuds parents résument les nœuds enfants, permettant une recherche à plusieurs niveaux de granularité. Recherche hybride : combinaison vectorielle + BM25 intégrée nativement. Reranking : re-classement des résultats par un modèle dédié pour améliorer la pertinence. Sub-question query engine : décomposition automatique d’une question complexe en sous-questions, chacune recherchée indépendamment. Citations : traçabilité des sources avec citations de pages et scores de confiance.

LlamaIndex vs. LangChain

C’est la comparaison la plus fréquente. Les deux frameworks sont complémentaires plus que concurrents, mais pour de nombreux cas d’usage, l’un est clairement meilleur que l’autre.

Critère	LlamaIndex	LangChain
Force principale	RAG, parsing documentaire, indexation	Agents généralistes, orchestration, intégrations
RAG basique	5 lignes de code	15-20 lignes (assemblage manuel)
Chunking hiérarchique	Natif (quelques lignes)	Manuel (plus de code)
Recherche hybride	Intégrée	Assemblage composants séparés
Orchestration d’agents	Workflows (event-driven, stateless par défaut)	LangGraph (graphes d’état, stateful, checkpointing)
Intégrations	300+ packages	1 000+ intégrations
Observabilité	Compatible Langfuse, Arize, LangSmith	LangSmith (intégration native)
Parsing documentaire	LlamaParse (130+ formats, OCR agentique)	Document loaders basiques
Langages	Python, TypeScript	Python, TypeScript
GitHub Stars	~40 000	118 000+

Utilisez LlamaIndex si votre cas d’usage est centré sur les documents (RAG, parsing, extraction, Q&A sur données), si vous voulez un pipeline fonctionnel rapidement, ou si la qualité du parsing est critique.

Utilisez LangChain/LangGraph si votre agent doit orchestrer de multiples outils (pas uniquement des documents), si vous avez besoin de persistance d’état robuste et de checkpointing, ou si l’étendue des intégrations est votre priorité.

Combinez les deux quand votre agent LangGraph a besoin d’un pipeline RAG de qualité : utilisez LlamaIndex pour l’indexation et la retrieval, et LangGraph pour l’orchestration de l’agent qui consomme ces résultats.

Cas d’usage en production

Salesforce Agentforce : L’équipe Agentforce utilise LlamaIndex comme framework principal pour construire des agents conversationnels qui accèdent aux données CRM non structurées. Les abstractions async de Workflows permettent de scaler les agents concurrents.

Rakuten : LlamaCloud parse et indexe les données entreprise complexes de Rakuten, améliorant significativement la performance RAG. Ce qui nécessitait auparavant plusieurs ingénieurs pour la maintenance des pipelines de données est maintenant automatisé.

Jeppesen (Boeing) : Économie estimée de 2 000 heures d’ingénierie grâce à un framework de chat unifié construit sur LlamaIndex.

Agents documentaires : Analyse automatisée de contrats juridiques, traitement de factures, extraction de données de rapports financiers, Q&A sur des manuels techniques. LlamaParse gère le parsing des documents complexes, LlamaIndex indexe le contenu, et un agent Workflows orchestre le tout.

Recherche entreprise : Des agents qui recherchent et synthétisent des informations à travers des milliers de documents internes (politiques, procédures, rapports), avec citations de sources et scores de confiance.

Forces et faiblesses

Forces	Faiblesses
Meilleur framework pour le RAG (concision, chunking avancé, recherche hybride)	Orchestration d’agents moins mature que LangGraph (Workflows stateless par défaut)
LlamaParse : parsing documentaire de pointe (130+ formats)	Communauté plus petite que LangChain (40K vs 118K GitHub stars)
API de haut niveau : RAG fonctionnel en 5 lignes	Moins d’intégrations (300 vs 1 000+ chez LangChain)
Workflows event-driven avec support ACP et MCP	Documentation parfois en retard sur les releases
Architecture modulaire (installer uniquement ce qu’on utilise)	LlamaParse est payant (freemium, crédits limités sur le plan gratuit)
Utilisé par Salesforce, Rakuten, Boeing, 90+ Fortune 500	Positionnement « documentaire » qui limite la perception comme framework généraliste
Python + TypeScript SDKs complets	Dépendance à LlamaCloud pour les fonctionnalités enterprise avancées

Prise en main rapide

Installation (package starter avec intégrations courantes) :

pip install llama-index

Installation personnalisée (uniquement ce dont vous avez besoin) :

pip install llama-index-core llama-index-llms-openai llama-index-embeddings-openai

Pipeline RAG minimal :

import os
os.environ[« OPENAI_API_KEY »] = « votre-clé »

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader(« ./mes-documents »).load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
print(query_engine.query(« Résumez les points clés du rapport Q3. »))

C’est tout. Ces quelques lignes chargent vos fichiers, les découpent, les vectorisent, les indexent, et créent un moteur de requête RAG fonctionnel. Pour aller plus loin, ajoutez un modèle d’embedding personnalisé, un vector store persistant (Pinecone, Qdrant, Chroma), et un reranker.

Vibe-coding avec LlamaIndex LlamaIndex fournit un fichier LLM.txt qui permet aux outils de vibe-coding (Claude, Cursor, etc.) de prototyper des applications LlamaIndex en langage naturel. Décrivez ce que vous voulez, et l’IA génère le code LlamaIndex correspondant.

Verdict

LlamaIndex est le framework de référence pour tout ce qui touche aux documents et au RAG. Sa concision (5 lignes pour un RAG fonctionnel), ses abstractions de haut niveau (chunking hiérarchique, recherche hybride, sub-question engine), et LlamaParse (parsing de pointe pour 130+ formats) en font le choix le plus productif pour les équipes qui construisent des applications IA sur des données non structurées.

L’élargissement vers les agents documentaires (Workflows, ACP, MCP) montre une ambition de plateforme complète, pas juste un framework RAG. Cependant, pour l’orchestration d’agents généralistes avec gestion d’état complexe, LangGraph reste plus mature grâce à son modèle de checkpointing et de persistance.

Notre recommandation : si votre cas d’usage est documentaire (Q&A sur données, extraction, parsing, RAG), commencez par LlamaIndex. Si votre agent doit aussi orchestrer des outils variés (APIs, bases de données, actions), combinez LlamaIndex (pour le pipeline documentaire) avec LangChain/LangGraph (pour l’orchestration). Si vous traitez des documents complexes en entreprise (contrats, rapports financiers, manuels techniques), LlamaParse vaut l’investissement pour la qualité de parsing.

Questions fréquentes sur LlamaIndex

LlamaIndex est-il gratuit ?

Le framework open source LlamaIndex (Python et TypeScript) est entièrement gratuit sous licence MIT. Vous pouvez construire des pipelines RAG, des agents et des workflows sans payer. Les produits commerciaux (LlamaParse, LlamaCloud) ont des plans freemium avec des crédits gratuits limités, puis des tarifs payants pour l’usage intensif. LlamaParse v2 propose quatre niveaux tarifaires (Fast, Cost Effective, Agentic, Agentic Plus) avec des prix réduits de jusqu’à 50 % par rapport à v1.

LlamaIndex ou LangChain pour le RAG ?

Pour le RAG, LlamaIndex est le meilleur choix. Un pipeline RAG fonctionnel s’écrit en 5 lignes de code contre 15-20 avec LangChain. LlamaIndex offre nativement le chunking hiérarchique, la recherche hybride (vectorielle + BM25), les sub-question query engines, et les citations avec scores de confiance. LangChain offre plus de flexibilité pour assembler les composants individuellement, ce qui est utile quand vous avez des besoins très spécifiques, mais demande plus de code pour le même résultat RAG de base.

Qu’est-ce que LlamaParse ?

LlamaParse est un service commercial de parsing documentaire « agentique » qui transforme des documents non structurés (130+ formats : PDF, PowerPoint, Excel, images, documents scannés, notes manuscrites) en données structurées exploitables par les LLM. Il excelle sur les cas difficiles : tableaux multi-pages, mises en page complexes, images embarquées. LlamaParse v2 simplifie la configuration en quatre niveaux (Fast à Agentic Plus) et réduit les coûts de jusqu’à 50 %. C’est un produit indépendant utilisable avec ou sans le framework LlamaIndex.

LlamaIndex peut-il faire plus que du RAG ?

Oui. LlamaIndex a évolué d’un « framework RAG » vers une « plateforme d’agents documentaires ». Les Workflows permettent de construire des pipelines multi-étapes event-driven avec parallélisme, human-in-the-loop, et intégration MCP. LlamaAgents déploie des agents documentaires en production. LlamaSheets traite des tableurs complexes. LlamaSplit sépare automatiquement des documents volumineux. L’écosystème couvre maintenant le cycle complet : parsing, extraction, indexation, recherche, raisonnement et action sur les documents.

Comment LlamaIndex se compare-t-il à LangGraph pour les agents ?

LlamaIndex Workflows utilise une approche event-driven (par événements), tandis que LangGraph utilise des graphes d’état. Workflows est stateless par défaut (l’état est géré via l’objet Context), LangGraph est stateful par défaut avec checkpointing natif et time travel. Pour les agents de longue durée avec un état complexe persistant entre sessions, LangGraph est plus mature. Pour les pipelines documentaires event-driven (parsing, extraction, indexation, Q&A), Workflows est plus naturel et concis. Les deux frameworks sont complémentaires : vous pouvez utiliser LlamaIndex pour le pipeline RAG et LangGraph pour l’orchestration de l’agent qui le consomme.