Perplexity API : guide complet des modèles, du pricing et de l’intégration

L’API Perplexity donne accès à la famille de modèles Sonar (recherche web avec citations), à une Agentic Research API multi-fournisseurs, à une Search API brute et à des modèles d’embeddings open-source. Le tout via un endpoint compatible OpenAI, avec tarification au token à partir de 1 $/million.

Endpoint: https://api.perplexity.ai/chat/completions
APIs disponibles: Sonar API · Agentic Research API · Search API · Embeddings API
Modèles Sonar: Sonar · Sonar Pro · Sonar Reasoning Pro · Sonar Deep Research
Compatibilité: Format OpenAI (SDK Python/JS compatible)
Pricing: À partir de 1 $/1M tokens (Sonar) + frais par requête selon contexte de recherche
Documentation: docs.perplexity.ai

Architecture de la plateforme API

Perplexity a structuré son offre développeur autour de quatre APIs distinctes, chacune ciblant un cas d’usage spécifique. Cette segmentation est arrivée progressivement : la Sonar API d’abord, puis la Search API (septembre 2025), et enfin l’Agentic Research API, l’Embeddings API et la Sandbox API (mars 2026), ces trois dernières exposant les briques techniques qui alimentent Perplexity Computer.

Sonar API : recherche conversationnelle avec citations

C’est l’API historique et la plus utilisée. Vous envoyez une question en langage naturel, Sonar interroge le web en temps réel, synthétise les résultats et renvoie une réponse avec citations sourcées. Le format de requête est compatible avec l’API OpenAI : changez l’URL de base et la clé, le reste de votre code fonctionne.

Quatre modèles composent la famille Sonar, du plus léger au plus puissant :

Modèle	Contexte	Usage optimal	Base technique
Sonar	127K tokens	Requêtes factuelles rapides, Q&A, résumés	Llama 3.3 70B optimisé par Perplexity
Sonar Pro	200K tokens	Requêtes multi-étapes, recherche approfondie	Modèle étendu, 2x plus de citations que Sonar
Sonar Reasoning Pro	128K tokens	Analyse structurée, chaîne de pensée (CoT)	Basé sur DeepSeek R1
Sonar Deep Research	128K tokens	Rapports exhaustifs, synthèse multi-sources	Recherche itérative autonome, dizaines de requêtes

Sonar standard est propulsé par l’infrastructure de Cerebras, ce qui lui permet d’atteindre un débit d’environ 1 200 tokens/seconde, soit un temps de réponse quasi instantané. Sur les benchmarks de factualité (SimpleQA), Sonar Pro affiche un F-score de 0,858, devançant les modèles concurrents en mode recherche.

Pro Search pour Sonar Pro Sonar Pro dispose d’un mode Pro Search activable via le paramètre search_type. En mode pro, le modèle effectue plusieurs recherches web et appels d’URL automatiquement pour répondre aux requêtes complexes. Requiert stream: true.

Agentic Research API : orchestration multi-modèles

Lancée en mars 2026 lors de la conférence Ask 2026, l’Agentic Research API est le développement le plus ambitieux de la plateforme. Elle donne accès aux modèles tiers d’OpenAI, Anthropic, Google et xAI via un seul endpoint, avec tarification transparente au prix fournisseur, sans marge ajoutée par Perplexity.

Concrètement, vous pouvez envoyer une requête à openai/gpt-5.2, anthropic/claude-sonnet-4-6 ou google/gemini-3-pro sans gérer plusieurs clés API ni plusieurs SDK. L’API intègre deux outils natifs :

web_search (0,005 $/appel) pour la recherche web en temps réel, et fetch_url (0,0005 $/appel) pour récupérer le contenu d’une URL spécifique. Ces outils s’ajoutent aux tokens du modèle dans la facturation.

L’Agentic Research API propose quatre presets préconfigurés :

Preset	Description	Étapes max
fast-search	Recherche rapide, une seule passe	1
pro-search	Recherche multi-étapes avec raisonnement	3
deep-research	Recherche exhaustive, synthèse structurée	10+
advanced-deep-research	Couverture maximale, revues systématiques	20+

Chaque preset est entièrement personnalisable : vous pouvez changer le modèle, augmenter le nombre d’étapes, restreindre la recherche à des domaines spécifiques, tout cela dans un seul appel API. L’API supporte aussi le function calling pour invoquer vos propres bases de données ou APIs tierces pendant la conversation.

Compatibilité OpenAI SDK L’Agentic Research API accepte les requêtes au format POST /v1/responses, compatible avec le SDK OpenAI. Vous pouvez migrer un code existant en changeant simplement l’URL de base et la clé API. L’API supporte aussi les chaînes de fallback : spécifiez plusieurs modèles et l’API bascule automatiquement en cas d’indisponibilité.

Search API : résultats web bruts

Pour les développeurs qui veulent construire leur propre pipeline de RAG ou de ranking, la Search API fournit les résultats de recherche bruts sans synthèse IA. Elle facture 5 $ pour 1 000 requêtes, sans coût token supplémentaire. L’index sous-jacent couvre 200 milliards d’URLs avec des mises à jour continues (dizaines de milliers par seconde).

La Search API supporte le filtrage par domaine, les requêtes multiples, et l’extraction de contenu. C’est la brique idéale si vous voulez garder le contrôle total sur la synthèse et la présentation des résultats.

Embeddings API : pplx-embed pour le retrieval

Lancée en février 2026, l’Embeddings API repose sur les modèles pplx-embed, développés en interne par Perplexity et publiés en open-source (licence MIT) sur Hugging Face. Deux familles de modèles sont disponibles :

pplx-embed-v1 pour l’embedding de texte standard (requêtes, phrases, documents indépendants) et pplx-embed-context-v1 pour l’embedding contextuel de chunks documentaires (le modèle prend en compte le contexte du document parent pour chaque chunk).

Chaque famille est disponible en version 0.6B (légère, faible latence) et 4B (qualité maximale). Basés sur Qwen3 convertis en encodeurs bidirectionnels via diffusion, ces modèles atteignent l’état de l’art sur les benchmarks MTEB Multilingual v2 (69,66 % nDCG@10 pour le 4B) et ConTEB pour le retrieval contextuel (81,96 %).

Modèle	Params	Prix ($/1M tokens)	Usage
pplx-embed-v1-0.6b	0,6B	0,004	Retrieval rapide, faible latence
pplx-embed-v1-4b	4B	0,03	Qualité maximale, recherche sémantique
pplx-embed-context-v1-0.6b	0,6B	0,004	Chunks documentaires, RAG contextuel
pplx-embed-context-v1-4b	4B	0,03	RAG contextuel haute qualité

Avantage clé : ces modèles ne nécessitent aucun préfixe d’instruction. Vous embedez directement le texte, sans avoir à choisir un prompt spécifique pour l’indexation vs la requête. Cela simplifie considérablement le déploiement en production et élimine une source courante de bugs dans les pipelines RAG.

Pricing détaillé de l’API Perplexity

La tarification combine deux composantes pour les modèles Sonar : un coût par token et un frais par requête qui varie selon la profondeur du contexte de recherche.

Coût par token (Sonar API)

Modèle	Input ($/1M)	Output ($/1M)	Citations ($/1M)	Reasoning ($/1M)	Search ($/1K queries)
Sonar	1 $	1 $	Non facturé	–	–
Sonar Pro	3 $	15 $	Non facturé	–	–
Sonar Reasoning Pro	2 $	8 $	Non facturé	–	–
Sonar Deep Research	2 $	8 $	2 $	3 $	5 $

Point important : depuis mars 2025, les tokens de citation ne sont plus facturés pour Sonar, Sonar Pro et Sonar Reasoning Pro. Seul Sonar Deep Research facture encore les citations et les tokens de raisonnement, car ce modèle effectue de nombreuses recherches automatiques en interne.

Frais par requête (selon le contexte de recherche)

Le « search context size » détermine la quantité de contenu web récupérée par requête. Plus le contexte est élevé, plus la réponse est complète, mais plus le coût augmente.

Modèle	Low ($/1K req.)	Medium ($/1K req.)	High ($/1K req.)
Sonar	5 $	8 $	12 $
Sonar Pro	6 $	10 $	14 $
Sonar Reasoning Pro	6 $	10 $	14 $

Le mode Low est le défaut. Pour la plupart des requêtes factuelles simples, c’est suffisant. Passez en Medium ou High uniquement pour des recherches qui nécessitent une couverture documentaire plus large.

Exemple de coût réel Une requête Sonar standard (500 tokens input, 200 tokens output, contexte Low) coûte environ 0,006 $, soit ~170 requêtes par dollar. Une requête Sonar Deep Research complète avec 18 recherches internes, 7 000 tokens output et 74 000 tokens de raisonnement coûte environ 0,41 $. La fourchette est large : calibrez le modèle et le contexte selon votre cas d’usage.

Pricing de l’Agentic Research API

L’Agentic Research API facture les tokens au tarif du fournisseur tiers (OpenAI, Anthropic, Google, xAI), sans marge Perplexity. Les outils intégrés sont facturés séparément : web_search à 0,005 $ par appel et fetch_url à 0,0005 $ par appel. Si un modèle effectue 5 recherches web pendant une requête, vous payez les tokens du modèle + (5 × 0,005 $) pour les recherches.

Pricing de la Search API

5 $ pour 1 000 requêtes, sans coût token. C’est le tarif le plus simple de la plateforme. Adapté aux applications qui nécessitent un volume élevé de résultats web bruts.

Intégration : premiers pas

Obtenir une clé API

Créez un compte sur perplexity.ai, puis rendez-vous dans les paramètres API pour générer votre clé. Il n’existe pas de tier gratuit pour l’API : vous devez ajouter un moyen de paiement et acheter des crédits. Les abonnés Perplexity Pro reçoivent 5 $ de crédit API mensuel inclus, mais c’est rapidement consommé en production.

Exemple : requête Sonar basique (cURL)

curl --request POST 
  --url https://api.perplexity.ai/chat/completions 
  --header "Authorization: Bearer VOTRE_CLE_API" 
  --header "Content-Type: application/json" 
  --data '{
    "model": "sonar",
    "messages": [
      {
        "role": "user",
        "content": "Quels sont les derniers modèles IA sortis en mars 2026 ?"
      }
    ]
  }'

La réponse inclut un champ citations avec les URLs des sources utilisées, et un champ usage avec le décompte exact des tokens consommés.

Exemple : requête avec le SDK Python

from openai import OpenAI

client = OpenAI(
    api_key="VOTRE_CLE_API",
    base_url="https://api.perplexity.ai"
)

response = client.chat.completions.create(
    model="sonar-pro",
    messages=[
        {"role": "system", "content": "Vous êtes un assistant de recherche précis."},
        {"role": "user", "content": "Compare les prix API de Claude et GPT-5.4"}
    ]
)

print(response.choices[0].message.content)
# Les citations sont dans response.citations

Grâce à la compatibilité OpenAI, vous utilisez directement le SDK openai en Python. Changez simplement la base_url et la clé API. Le même principe s’applique avec le SDK JavaScript/TypeScript.

Exemple : Agentic Research API avec recherche web

response = client.responses.create(
    model="openai/gpt-5.2",
    input="Analyse les tendances du marché IA en France au T1 2026",
    tools=[
        {"type": "web_search", "config": {
            "search_domain_filter": ["lesechos.fr", "usine-digitale.fr"]
        }}
    ],
    max_tokens=4000
)

# Fallback automatique entre modèles
response = client.responses.create(
    models=["openai/gpt-5.2", "anthropic/claude-sonnet-4-6"],
    input="Votre question ici"
)

Notez la possibilité de filtrer les résultats de recherche par domaine et de configurer des chaînes de fallback entre modèles. C’est un avantage significatif pour les applications de production qui nécessitent une haute disponibilité.

Exemple : Embeddings

curl -X POST https://api.perplexity.ai/v1/embeddings 
  -H "Authorization: Bearer VOTRE_CLE_API" 
  -H "Content-Type: application/json" 
  -d '{
    "input": [
      "L intelligence artificielle transforme le travail",
      "Les modèles de langage comprennent le contexte"
    ],
    "model": "pplx-embed-v1-4b"
  }'

Les embeddings sont renvoyés en INT8 nativement. Utilisez la similarité cosinus pour la comparaison. Pour les modèles contextuels, l’endpoint est /v1/contextualizedembeddings et accepte des listes de chunks groupés par document.

Paramètres clés à maîtriser

search_context_size

Contrôle la profondeur de recherche web : low (défaut, rapide et économique), medium (équilibré), high (couverture maximale). Ce paramètre affecte directement le coût par requête. Pour les Q&A simples, Low suffit. Pour les synthèses documentaires, visez Medium ou High.

search_recency_filter

Filtre les résultats par ancienneté : hour, day, week, month. Indispensable pour les applications qui nécessitent des données très récentes (cours de bourse, actualités).

search_domain_filter

Restreint la recherche à des domaines spécifiques. Idéal pour les applications verticales (ex. : recherche médicale limitée à PubMed et clinicaltrials.gov).

return_images

Active le retour d’images pertinentes dans les résultats (disponible pour les utilisateurs Tier-2 et plus). Chaque image inclut l’URL source, les dimensions et l’URL d’origine.

reasoning_effort

Pour Sonar Deep Research, influence le nombre de recherches internes effectuées. Plus l’effort est élevé, plus le rapport est exhaustif, mais plus le coût augmente.

Cas d’usage en production

L’API Perplexity est utilisée en production par des entreprises majeures dans des contextes variés :

Recherche de prospects et comptes (Copy AI) : intégration Sonar pour la recherche automatisée sur les entreprises cibles. Les équipes commerciales économisent environ 8 heures de recherche par représentant par semaine.

Recherche médicale (Doximity) : les médecins accèdent à un outil de recherche alimenté par Sonar pour les nouvelles lignes directrices, les remboursements d’assurance et les publications médicales récentes.

Recherche en temps réel dans les visioconférences (Zoom) : intégration Sonar Pro dans Zoom AI Companion 2.0 pour des recherches privées en temps réel pendant les appels vidéo, sans quitter l’interface.

Pipelines RAG personnalisés : la Search API + pplx-embed alimentent des systèmes de retrieval augmented generation pour les knowledge bases internes d’entreprise.

Perplexity API vs autres APIs IA

Critère	Perplexity Sonar	ChatGPT API	Claude API
Recherche web native	Oui, systématique	Via outil web_search	Via outil web_search
Citations automatiques	Oui, par défaut	Non systématique	Non systématique
Modèles multi-fournisseurs	Oui (Agentic API)	Non (OpenAI uniquement)	Non (Anthropic uniquement)
Prix entrée ($/1M input)	À partir de 1 $	2,50 $ (GPT-5.4)	3 $ (Sonnet 4.6)
Embeddings	pplx-embed (open-source)	text-embedding-3	Voyager (via partenaire)
Raisonnement avancé	Sonar Reasoning Pro	GPT-5.4 Thinking / o3	Claude Opus 4.6
Compatibilité SDK	Format OpenAI	SDK natif	SDK Anthropic

L’avantage distinctif de Perplexity est la recherche web avec citations comme fonctionnalité native, pas un outil à activer séparément. Si votre application repose sur des données actualisées et vérifiables, Sonar est plus adapté qu’un LLM généraliste auquel vous ajoutez un outil de recherche.

Pour le raisonnement pur, la génération de contenu créatif ou le code, les APIs d’OpenAI et d’Anthropic restent supérieures. L’Agentic Research API de Perplexity comble partiellement cet écart en donnant accès à ces mêmes modèles, mais vous ne bénéficiez pas des optimisations spécifiques de chaque fournisseur (batch API Claude, Code Interpreter ChatGPT, etc.).

Limites et points d’attention

Pas de tier gratuit API. Contrairement à l’interface web de Perplexity, l’API n’offre pas d’accès gratuit. Les abonnés Pro reçoivent 5 $ de crédit mensuel, ce qui couvre quelques centaines de requêtes Sonar standard mais s’épuise rapidement en production.

Rate limits par paliers. Les limites de débit dépendent de votre tier d’utilisation (basé sur le montant dépensé). Consultez la documentation officielle pour les seuils exacts, car ils évoluent régulièrement.

Sonar Deep Research est coûteux. Une seule requête Deep Research peut coûter entre 0,40 $ et 1,30 $ selon la complexité. À fort volume, les coûts montent vite. Réservez ce modèle aux cas qui justifient réellement une recherche exhaustive.

L’Agentic Research API est récente. Lancée en mars 2026, elle n’a pas encore le recul des APIs OpenAI ou Anthropic. Les presets et les modèles supportés peuvent évoluer. Testez en staging avant de déployer en production.

Pas d’entraînement sur les données client. Perplexity affirme ne pas utiliser les données API pour l’entraînement de ses modèles. Les plans Enterprise ajoutent des contrôles supplémentaires (rétention configurable, audit logs, SCIM).

Contrôle des coûts Définissez des limites de dépense via le dashboard API et implémentez max_tokens dans chaque requête. Utilisez le mode Low par défaut pour le contexte de recherche, et ne passez en High que lorsque la profondeur de recherche est réellement nécessaire. Surveillez le champ usage de chaque réponse pour un suivi en temps réel.

Verdict

L’API Perplexity occupe un créneau unique : la recherche web avec citations comme primitive d’API. Si votre application a besoin de réponses factuelles, sourcées et actualisées, aucune autre API ne fait aussi bien nativement.

Pour un développeur qui construit un chatbot de support, un outil de veille, un assistant de recherche ou un pipeline RAG alimenté par le web, Sonar est le choix le plus direct. Le rapport qualité/prix est compétitif, surtout avec Sonar standard à 1 $/1M tokens.

L’Agentic Research API est la brique la plus prometteuse : un seul endpoint pour accéder à tous les grands modèles avec recherche web intégrée. Si Perplexity tient sa promesse de tarification sans marge, c’est un simplificateur d’architecture considérable pour les équipes qui utilisent déjà plusieurs fournisseurs.

En revanche, si votre besoin est principalement la génération de contenu, le code ou le raisonnement sans recherche web, les APIs OpenAI et Anthropic restent plus adaptées. Et si vous avez besoin de l’API Perplexity en complément, les plans et tarifs sont détaillés dans notre page dédiée.

Questions fréquentes

L’API Perplexity est-elle gratuite ?

Non. Il n’existe pas de tier gratuit pour l’API Perplexity. Les abonnés Perplexity Pro reçoivent 5 $ de crédit API mensuel, mais ce montant est insuffisant pour un usage en production. Vous devez ajouter un moyen de paiement et acheter des crédits pour utiliser l’API au-delà de cette enveloppe.

Quelle est la différence entre la Sonar API et l’Agentic Research API ?

La Sonar API utilise les modèles propriétaires Perplexity (Sonar, Sonar Pro, etc.) optimisés pour la recherche web avec citations. L’Agentic Research API donne accès aux modèles tiers (GPT-5.x, Claude, Gemini, Grok) via un seul endpoint, avec des outils de recherche web intégrés et des presets pour différents niveaux de profondeur de recherche. Utilisez Sonar pour des requêtes de recherche standard, et l’Agentic Research API quand vous avez besoin d’un modèle spécifique ou d’une orchestration multi-modèles.

L’API Perplexity est-elle compatible avec le SDK OpenAI ?

Oui. L’API Perplexity suit le format de l’API OpenAI Chat Completions. Vous pouvez utiliser le SDK Python ou JavaScript d’OpenAI en changeant simplement la base_url vers https://api.perplexity.ai et en utilisant votre clé API Perplexity. L’Agentic Research API accepte aussi les requêtes au format /v1/responses.

Combien coûte une requête Sonar Deep Research ?

Le coût varie selon la complexité de la recherche. Une requête typique avec contexte Low (environ 7 000 tokens output, 74 000 tokens de raisonnement et 18 recherches internes) coûte environ 0,41 $. En contexte High avec plus de recherches, le coût peut dépasser 1,30 $ par requête. C’est un modèle à utiliser avec parcimonie et sur des tâches qui justifient une recherche exhaustive.

Les modèles pplx-embed sont-ils utilisables sans l’API Perplexity ?

Oui. Les modèles pplx-embed-v1 et pplx-embed-context-v1 sont publiés en open-source sous licence MIT sur Hugging Face. Vous pouvez les télécharger et les exécuter localement avec Transformers, SentenceTransformers ou ONNX. Ils supportent aussi le déploiement via des conteneurs Docker (Hugging Face Text Embeddings Inference). L’API Perplexity est une option pratique, mais pas obligatoire.