Top-p (Nucleus Sampling) : filtrer la creativite des LLM par probabilite

Definition rapide Le top-p, aussi appele nucleus sampling, est un parametre d’echantillonnage qui limite la selection des tokens a ceux dont la probabilite cumulee atteint un seuil P. Avec top-p = 0,9, le modele ne considere que les tokens les plus probables qui representent ensemble 90 % de la masse de probabilite, ignorant les 10 % les plus improbables.

Categorie: Parametre d’echantillonnage
Nom technique: Nucleus Sampling
Plage: 0 a 1
Valeur par defaut: 1,0 (pas de filtrage)
Interagit avec: Temperature, Top-k

Comment fonctionne le top-p ?

A chaque etape de generation, un LLM attribue une probabilite a chaque token possible dans son vocabulaire (qui peut contenir 100 000+ tokens). La grande majorite de ces tokens ont une probabilite quasi nulle. Le top-p filtre intelligemment cette distribution.

Le mecanisme est simple. Apres le calcul des probabilites, le modele trie les tokens du plus probable au moins probable. Il additionne ensuite les probabilites dans cet ordre jusqu’a atteindre le seuil P. Seuls les tokens qui contribuent a cette masse cumulee sont candidats a la selection. Les autres sont exclus.

Exemple concret : si le modele genere la suite de « Le chat est sur le … » avec les probabilites suivantes : « toit » (40 %), « canape » (25 %), « lit » (15 %), « mur » (8 %), « sol » (5 %), « balcon » (3 %), et des milliers d’autres tokens a moins de 1 % chacun. Avec top-p = 0,9 : le modele considere uniquement « toit », « canape », « lit », « mur » et « sol » (40 + 25 + 15 + 8 + 5 = 93 %, depassant le seuil de 90 %). Les tokens restants (« balcon », etc.) sont exclus. Le modele choisit aleatoirement parmi ces 5 tokens, pondere par leurs probabilites respectives.

L’avantage du top-p sur les autres methodes

Le top-p est adaptatif. C’est sa force principale par rapport au top-k. Le nombre de tokens candidats varie dynamiquement selon le contexte.

Quand le modele est tres sur de sa prediction (par exemple, apres « La capitale de la France est »), un seul token concentre 95 % de la probabilite (« Paris »). Avec top-p = 0,9, seul ce token est candidat, produisant une reponse deterministe. Pas besoin de fixer un K artificiel.

Quand le modele hesite entre plusieurs completions valides (par exemple, pour une suite creative), la probabilite est repartie entre de nombreux tokens. Avec top-p = 0,9, le modele explore 20, 50 ou 100 tokens candidats, offrant une diversite naturelle.

Le top-k fixe, lui, garde toujours exactement K tokens, qu’il y en ait 1 ou 1 000 de pertinents. C’est soit trop restrictif (quand K est petit et que plusieurs tokens sont valides), soit trop permissif (quand K est grand et que le modele est certain de sa reponse).

Valeurs recommandees du top-p

Valeur top-p	Comportement	Cas d’usage
0,1 – 0,3	Tres restrictif, quasi deterministe	Extraction, classification, code
0,5	Restrictif, peu de variation	Traduction, resume
0,7 – 0,8	Equilibre, diversite moderee	Conversations, assistance
0,9	Valeur standard, bonne diversite	Usage general
0,95 – 1,0	Peu de filtrage	Creativite maximale

Top-p vs Temperature : comparaison detaillee

La temperature et le top-p agissent tous deux sur la diversite de la generation, mais a des etapes differentes du processus.

La temperature agit en amont : elle modifie la distribution de probabilites avant l’echantillonnage. Elle « aplatit » ou « aiguise » la courbe de probabilite entiere.

Le top-p agit en aval : il filtre les tokens apres le calcul des probabilites. Il coupe la queue de distribution (les tokens les plus improbables) sans modifier les probabilites relatives des tokens restants.

En pratique : la temperature change la « forme » de la distribution, le top-p en change les « bornes ».

Aspect	Temperature	Top-p
Ce qui est modifie	Distribution de probabilites entiere	Ensemble des tokens candidats
Nombre de tokens affectes	Tous	Variable (adaptatif)
Controle	Global et intuitif	Precis, elimine les tokens aberrants
Risque a valeur extreme	Incoherence (T trop haute)	Trop restrictif (P trop bas)
Recommandation OpenAI	Ajuster seul, top-p = 1	Ajuster seul, temperature = 1

Astuce Polydesk La rgle d’or : n’ajustez qu’un seul parametre a la fois. Si vous modifiez la temperature, laissez top-p a 1. Si vous preferez utiliser top-p, laissez la temperature a 1. Combiner des ajustements sur les deux parametres produit des interactions complexes et des resultats imprevisibles.

Configuration du top-p dans les API

# OpenAI API avec top-p
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user", "content": "Genere 5 slogans publicitaires pour une marque de cafe bio"}
    ],
    temperature=1,   # Laisser a 1 quand on ajuste top-p
    top_p=0.85       # Diversite moderee
)

# Anthropic API avec top-p
import anthropic
client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    top_p=0.9,
    messages=[{"role": "user", "content": "Propose des noms de projet innovants"}]
)

Quand privilegier le top-p

Pour eliminer les tokens aberrants. Si vous voulez de la diversite mais pas d’absurdite, top-p = 0,9 est ideal. Il laisse le modele explorer des completions variees tout en coupant les 10 % les plus improbables qui generent souvent des sorties incoherentes.

Pour un controle adaptatif. Contrairement au top-k qui impose un nombre fixe de candidats, le top-p s’adapte au contexte. C’est particulierement utile quand votre application doit gerer des situations tres variees (questions factuelles et questions ouvertes dans le meme chatbot).

En complement du prompt engineering. Un prompt bien structure + top-p = 0,9 donne souvent de meilleurs resultats qu’un prompt moyen + des ajustements complexes de temperature. Le top-p est un filet de securite, pas un substitut a un bon prompt.

Origine du nucleus sampling

Le nucleus sampling a ete introduit dans le papier « The Curious Case of Neural Text Degeneration » (Holtzman et al., 2020). Les auteurs ont montre que les methodes d’echantillonnage traditionnelles (temperature seule, top-k fixe) produisaient soit des textes repetitifs (echantillonnage trop restrictif) soit des textes incoherents (echantillonnage trop permissif). Le nucleus sampling resout ce dilemme en adaptant dynamiquement le nombre de tokens candidats.

L’approche a ete rapidement adoptee par tous les fournisseurs de LLM et est devenue un parametre standard de toutes les API de generation de texte.

FAQ

Quelle est la difference entre top-p et top-k ?

Le top-k garde exactement les K tokens les plus probables, quel que soit leur probabilite cumulee. Le top-p garde les tokens qui, ensemble, atteignent un seuil de probabilite P. Le top-p est adaptatif : il peut selectionner 2 tokens quand le modele est sur de lui, ou 50 quand il hesite. Le top-k est fixe et ne s’adapte pas au contexte.

Faut-il utiliser top-p ou temperature ?

Les deux controlent la diversite mais differemment. La temperature est plus intuitive et largement documentee : c’est le bon choix pour commencer. Le top-p offre un controle plus precis en eliminant les tokens aberrants. La recommandation officielle d’OpenAI et d’Anthropic est d’ajuster un seul parametre a la fois. Pour la plupart des cas, la temperature suffit.

Que se passe-t-il avec top-p = 1 ?

Avec top-p = 1, aucun filtrage n’est applique. Tous les tokens du vocabulaire sont candidats, et seule la temperature influence la diversite. C’est la valeur par defaut de la plupart des API. Cela signifie que si vous n’avez jamais touche au parametre top-p, il est deja a 1 et n’a aucun effet sur vos generations.

Le top-p affecte-t-il les performances du modele ?

Un top-p bas (0,1-0,3) ameliore generalement la precision sur les taches factuelles car il exclut les completions improbables. Un top-p trop bas sur des taches creatives degrade la qualite en rendant les sorties repetitives et previsibles. L’impact sur les hallucinations est similaire a celui de la temperature basse : moins de diversite signifie moins de risque d’invention.

Les modeles de raisonnement (o1, o3) utilisent-ils le top-p ?

Les modeles de raisonnement comme o1 et o3 d’OpenAI ne supportent pas le parametre top-p. Leur processus de generation est different : ils explorent des chaines de raisonnement internes avant de produire la sortie finale. Le controle de la diversite est gere par leur architecture de raisonnement, pas par les parametres d’echantillonnage classiques.