ALiBi (Attention with Linear Biases)

ALiBi (Attention with Linear Biases) est une méthode d’encodage positionnel pour les Transformers qui supprime entièrement les embeddings positionnels traditionnels et les remplace par un biais linéaire négatif ajouté aux scores d’attention avant le softmax, dont l’amplitude est proportionnelle à la distance entre le Query et le Key, permettant une extrapolation efficace à des séquences plus longues que celles vues pendant l’entraînement.

Auteurs: Ofir Press, Noah A. Smith, Mike Lewis
Publication: ICLR 2022 (papier : « Train Short, Test Long »)
Principe: Biais linéaire négatif proportionnel à la distance token-à-token, ajouté aux scores d’attention
Paramètres apprenables: Zéro (les pentes m sont fixées par tête via une séquence géométrique)
Extrapolation: Entraîner sur 1024 tokens, inférer sur 2048+ sans fine-tuning
Modèles notables: MPT-7B/30B (MosaicML/Databricks), BLOOM
Statut actuel: Supplanté par RoPE comme standard, mais toujours utilisé dans des niches

Le problème de l’extrapolation de longueur

Depuis l’introduction du Transformer en 2017, une question fondamentale est restée ouverte : comment un modèle peut-il extrapoler à l’inférence sur des séquences plus longues que celles vues pendant l’entraînement ?

Les encodages sinusoïdaux classiques, ajoutés aux embeddings de tokens, fonctionnent correctement pour les longueurs d’entraînement mais dégradent rapidement les performances quand la séquence d’inférence dépasse cette longueur. Les encodages appris (GPT-2, BERT) sont encore pires : ils n’existent tout simplement pas pour les positions au-delà de la longueur d’entraînement. Même RoPE, malgré sa formulation théoriquement extensible, souffre d’une dégradation significative sans techniques de scaling (YaRN, etc.).

ALiBi a été le premier à résoudre proprement ce problème d’extrapolation. Sa simplicité radicale, supprimer tous les encodages positionnels et les remplacer par un simple biais, a montré qu’un mécanisme positionnel minimaliste pouvait être plus robuste que des approches plus élaborées.

Fonctionnement d’ALiBi

Le mécanisme : un biais sur les scores d’attention

ALiBi modifie le calcul d’attention standard de manière minimale. Au lieu d’ajouter des encodages positionnels aux embeddings de tokens (au bas du réseau), ALiBi ajoute un biais directement aux scores d’attention (au niveau de chaque couche d’attention), après le produit scalaire Q·K^T et avant le softmax.

Pour le token à la position i, le score d’attention modifié est :

a_i = softmax(q_i · K^T + m × [-(i-1), …, -2, -1, 0])

Le terme m × [-(i-1), …, -1, 0] est le biais ALiBi. C’est un vecteur de pénalités linéairement croissantes (en valeur absolue) avec la distance. Le token immédiatement précédent reçoit une pénalité de -m, le token deux positions en arrière reçoit -2m, et ainsi de suite. Le token courant (position i) ne reçoit aucune pénalité (0).

Le scalaire m est une pente spécifique à chaque tête d’attention, fixée avant l’entraînement et jamais modifiée. Il n’y a aucun paramètre apprenable. Les pentes sont définies comme une séquence géométrique. Pour un modèle avec 8 têtes, les pentes sont : 1/2¹, 1/2², 1/2³, …, 1/2⁸, soit 1/2, 1/4, 1/8, …, 1/256.

Chaque tête a donc un « taux de décroissance » différent. Les têtes avec de grandes pentes (comme 1/2) pénalisent fortement les tokens éloignés et se concentrent sur le contexte local. Les têtes avec de petites pentes (comme 1/256) pénalisent faiblement et maintiennent une attention plus globale. Le modèle obtient ainsi automatiquement un mélange de perspectives locale et globale sans aucun paramètre à apprendre.

Pourquoi ça marche pour l’extrapolation Puisque le biais ne dépend que de la distance entre tokens (pas de la position absolue), il est défini pour toute distance, y compris des distances plus grandes que celles vues pendant l’entraînement. Un token à distance 2048 reçoit simplement une pénalité de 2048 × m, ce qui est une extension naturelle du pattern linéaire appris pendant l’entraînement sur des distances plus courtes. Il n’y a pas de « position inconnue » ou de « fréquence hors limites ».

Propriétés clés

Biais de récence (recency bias). ALiBi encode un biais inductif fort vers la récence : les tokens proches reçoivent systématiquement plus d’attention que les tokens éloignés. C’est une hypothèse raisonnable pour la plupart des tâches de langage naturel, où le contexte récent est généralement le plus informatif.

Zéro paramètre supplémentaire. ALiBi n’ajoute aucun paramètre au modèle. Les pentes sont fixées par une formule fermée. Cela le rend plus léger que les encodages appris et aussi léger que les sinusoïdes ou RoPE.

Surcoût computationnel minimal. Le biais ALiBi est une matrice statique calculée une seule fois et ajoutée à chaque calcul d’attention. Le surcoût en mémoire est négligeable (au plus 100 Mo selon les auteurs). La vitesse d’entraînement est identique à celle de l’attention standard sans encodage positionnel, et 11% plus rapide qu’avec les sinusoïdes.

Séparation position/sémantique. Contrairement aux encodages additifs (sinusoïdes, appris) qui mélangent la position et la sémantique dans le même vecteur d’embedding, ALiBi maintient une séparation propre. L’information sémantique vit dans les embeddings ; l’information positionnelle est injectée uniquement au niveau de l’attention. Cela facilite potentiellement l’apprentissage.

Résultats expérimentaux

Extrapolation de longueur

Les résultats sur WikiText-103 sont frappants. Un modèle ALiBi de 1,3 milliard de paramètres entraîné sur des séquences de 1024 tokens extrapole à 2048 tokens avec la même perplexité qu’un modèle à encodage sinusoïdal entraîné directement sur 2048 tokens, tout en s’entraînant 11% plus vite et en utilisant 11% moins de mémoire.

Plus impressionnant encore, la perplexité d’ALiBi reste stable jusqu’à des séquences de 10 000 tokens (10x la longueur d’entraînement). En comparaison, les encodages sinusoïdaux et RoPE (sans scaling) montrent une explosion de la perplexité dès que la séquence dépasse la longueur d’entraînement.

Performance sur les benchmarks standard

Sur WikiText-103, le biais de récence d’ALiBi lui permet de surpasser les sinusoïdes, les encodages appris, RoPE, et les biais T5 en perplexité. Ce résultat est cohérent sur différentes tailles de modèles (125M à 1,3B paramètres) et tailles de datasets. L’amélioration est particulièrement marquée sur les modèles entraînés avec des ressources limitées, où l’inductive bias de récence d’ALiBi compense le manque de données.

Adoption dans l’industrie

ALiBi a été adopté par plusieurs modèles notables lors de son introduction :

BLOOM (BigScience, 2022). Le modèle multilingue de 176 milliards de paramètres utilise ALiBi, ce qui lui a permis de supporter des contextes de 2048 tokens tout en s’entraînant sur des séquences de cette longueur.

MPT-7B et MPT-30B (MosaicML, 2023). La série MPT a fait d’ALiBi un argument commercial clé, mettant en avant la capacité d’extrapolation. Le succès de MPT a directement contribué à l’acquisition de MosaicML par Databricks pour 1,3 milliard de dollars en juin 2023.

Cependant, malgré ces adoptions, ALiBi n’a pas réussi à s’imposer comme standard de l’industrie. La raison principale est l’émergence des techniques de scaling de RoPE (YaRN, NTK-aware) qui ont résolu le problème d’extrapolation de RoPE tout en offrant une expressivité supérieure. Les modèles les plus influents (Llama, Mistral, Qwen, Gemini) ont tous choisi RoPE.

ALiBi vs RoPE : pourquoi RoPE a gagné

Critère	ALiBi	RoPE
Mécanisme	Biais linéaire sur scores d’attention	Rotation des vecteurs Q et K
Paramètres	Zéro (pentes fixées)	Zéro (fréquences fixées)
Encodage relatif	Implicite (biais proportionnel à la distance)	Explicite (produit scalaire = f(distance))
Extrapolation native	Excellente (stable à 10x+)	Faible sans scaling
Extrapolation avec scaling	N/A (pas nécessaire)	Excellente (YaRN → 32x+)
Expressivité	Limitée (biais fixe, linéaire)	Riche (multi-fréquence, conditionné par le contenu via Q/K)
Compatibilité KV cache	Parfaite (biais ajouté à l’attention)	Parfaite (rotation appliquée aux K avant cache)
Adoption	BLOOM, MPT	Llama, Mistral, Qwen, DeepSeek, Gemma, PaLM

Verdict : ALiBi excelle en extrapolation native et en simplicité, mais son biais linéaire fixe limite son expressivité. RoPE, avec ses rotations multi-fréquences, permet au modèle d’apprendre des patterns d’attention complexes conditionnés par le contenu et la position. Les techniques de scaling (YaRN, LongRoPE2) ont résolu le principal avantage d’ALiBi (l’extrapolation), tandis que personne n’a trouvé de moyen de rendre ALiBi plus expressif sans perdre sa simplicité. C’est pourquoi RoPE est devenu le standard et ALiBi une approche de niche.

Il existe cependant des cas où ALiBi reste pertinent. Pour les modèles qui doivent extrapoler sans aucun fine-tuning (déploiement plug-and-play sur des séquences variables), ALiBi reste la solution la plus robuste. Et le framework SWAT (2025) propose de combiner ALiBi et RoPE dans un système d’attention à fenêtre glissante avec sigmoïde, tirant parti de la compression d’information d’ALiBi et de la rétention positionnelle de RoPE.

ALiBi pour les encodeurs (BERT-like)

Le papier original d’ALiBi se concentre exclusivement sur les modèles autorégressifs (decoder-only). L’extension aux modèles encodeurs (bidirectionnels, type BERT) n’est pas triviale car la matrice de biais doit être adaptée pour l’attention bidirectionnelle.

Plusieurs approches ont été explorées. La version symétrique utilise un biais proportionnel à la distance absolue |i – j|, sans distinction de direction. La version asymétrique avec offset décale le biais pour distinguer les tokens avant et après. La version asymétrique à pentes différenciées utilise des pentes m distinctes pour les directions avant et arrière, avec des valeurs fixes ou apprises.

Des expériences sur des MLM (Masked Language Models) de type RoBERTa montrent que les résultats sont mitigés : ALiBi fonctionne bien sur les petits modèles encodeurs mais la performance commence à se dégrader à partir de séquences de 2048 tokens pour les modèles plus grands. Ce résultat suggère que la force d’ALiBi (le biais de récence) est moins pertinente pour les tâches bidirectionnelles où le futur est aussi informatif que le passé.

Le rôle critique des pentes

Les pentes m sont l’hyperparamètre le plus important d’ALiBi, même si elles ne sont pas apprises. La séquence géométrique choisie par les auteurs (1/2^1/n, 1/2^2/n, …, 1/2^n/n pour n têtes) a été validée empiriquement sur une large variété de domaines textuels et de tailles de modèles. Les auteurs rapportent qu’il n’est pas nécessaire de réajuster ces pentes pour chaque nouveau modèle ou dataset, ce qui fait d’ALiBi une méthode « configure une fois, utilise partout », similaire aux sinusoïdes dans ce sens.

Intuitivement, les pentes contrôlent le « champ réceptif effectif » de chaque tête. Une tête avec une pente de 1/2 pénalise un token à 10 positions de distance par -5 (en échelle log avant softmax), ce qui le rend quasi-invisible. Une tête avec une pente de 1/256 pénalise le même token de seulement -0,039, le laissant largement visible. Le modèle apprend à utiliser les têtes à forte pente pour les relations locales (syntaxe, morphologie) et les têtes à faible pente pour les relations globales (thème, coréférence longue distance).

Cette diversité automatique de champs réceptifs est un atout conceptuel d’ALiBi, et se rapproche fonctionnellement de ce que fait la sliding window attention de manière plus rigide (fenêtre fixe de W tokens). ALiBi offre une version « douce » de la fenêtre glissante, où l’attention ne tombe pas à zéro au-delà de W mais décroît progressivement.

Implémentation

L’implémentation d’ALiBi est remarquablement simple. Trois modifications suffisent par rapport à un Transformer standard :

1. Supprimer les embeddings positionnels. Aucun encodage de position n’est ajouté aux embeddings de tokens à l’entrée du réseau.

2. Calculer la matrice de biais. Une matrice statique de taille [seq_len, seq_len] est calculée une seule fois, contenant les distances entre chaque paire de positions, multipliées par la pente m de chaque tête.

3. Ajouter le biais aux scores d’attention. À chaque couche, le biais est ajouté au masque d’attention, qui est ensuite ajouté aux scores Q·K^T avant le softmax.

Pour les modèles dont le nombre de têtes n’est pas une puissance de 2, les pentes sont calculées via une interpolation de la séquence géométrique : on calcule les pentes pour la puissance de 2 inférieure, puis on ajoute les pentes intermédiaires en prenant un pas de 2 dans la séquence géométrique de la puissance de 2 supérieure.

Compatibilité FlashAttention ALiBi est compatible avec FlashAttention. Le biais peut être intégré dans le masque d’attention ou ajouté directement aux scores via le paramètre attn_bias. FlexAttention (PyTorch) supporte nativement ALiBi via une fonction score_mod personnalisée. Les kernels FlashAttention sur AMD ROCm (backend Triton) incluent également le support ALiBi.

L’héritage d’ALiBi

Même si ALiBi n’est plus le standard dominant, son influence sur le domaine est durable. Il a démontré que les encodages positionnels pouvaient être radicalement simplifiés sans perdre en qualité, et que l’extrapolation de longueur était un problème soluble. Ces leçons ont directement influencé le développement des techniques de scaling de RoPE.

ALiBi a également établi le principe que l’information de position devrait être injectée au niveau de l’attention plutôt qu’au niveau des embeddings, un principe que RoPE reprend à sa manière (en transformant les Q et K plutôt qu’en ajoutant aux embeddings). La « soft attention decay » d’ALiBi (les tokens éloignés reçoivent moins d’attention) est désormais considérée comme un biais inductif souhaitable, et se retrouve sous des formes diverses dans les architectures modernes comme le sliding window ou les mécanismes d’attention sink.

Questions fréquentes sur ALiBi

Qu’est-ce qu’ALiBi et comment fonctionne-t-il ?

ALiBi (Attention with Linear Biases) est un encodage positionnel pour les Transformers qui remplace les embeddings de position par un biais négatif ajouté aux scores d’attention. Ce biais est proportionnel à la distance entre les tokens : plus deux tokens sont éloignés, plus la pénalité est forte. Chaque tête d’attention a sa propre pente de pénalité (fixée, non apprise), créant un mélange naturel de têtes à attention locale (forte pente) et globale (faible pente). Le résultat est un mécanisme simple, efficace, et capable d’extrapoler à des séquences bien plus longues que celles d’entraînement.

Pourquoi ALiBi a-t-il été supplanté par RoPE ?

RoPE offre une expressivité bien supérieure grâce à ses rotations multi-fréquences. ALiBi impose un biais linéaire fixe (identique pour tout contenu), tandis que RoPE permet au modèle d’apprendre des patterns d’attention complexes via ses Q et K. L’avantage principal d’ALiBi, l’extrapolation native, a été neutralisé par les techniques de scaling de RoPE (YaRN, LongRoPE2) qui permettent d’étendre le contexte à 128K+ tokens avec un fine-tuning minimal. Les LLM majeurs (Llama, Mistral, Qwen, DeepSeek) utilisent tous RoPE.

ALiBi ajoute-t-il des paramètres ou du coût de calcul ?

Non. ALiBi n’ajoute aucun paramètre apprenable au modèle. Les pentes m sont fixées par une formule avant l’entraînement. Le surcoût computationnel est négligeable : une matrice statique est calculée une seule fois et ajoutée aux scores d’attention à chaque couche. L’entraînement est même 11% plus rapide qu’avec les sinusoïdes car ALiBi supprime le calcul d’embedding positionnel au bas du réseau.

Quels modèles utilisent ALiBi ?

Les modèles les plus notables utilisant ALiBi sont BLOOM (BigScience, 176B paramètres) et la série MPT de MosaicML (7B et 30B paramètres). Cependant, depuis 2024, aucun nouveau LLM majeur n’a adopté ALiBi. La quasi-totalité des modèles lancés récemment utilisent RoPE. ALiBi reste pertinent dans des contextes de niche : modèles nécessitant une extrapolation plug-and-play sans fine-tuning, ou combinaison avec RoPE dans des architectures hybrides (SWAT).

Peut-on combiner ALiBi avec RoPE ?

Oui. Le framework SWAT (2025) propose une combinaison équilibrée d’ALiBi et de RoPE dans un système de sliding window attention avec softmax remplacé par sigmoïde. ALiBi apporte une compression efficace de l’information (les tokens éloignés sont naturellement atténués), tandis que RoPE fournit un encodage positionnel plus riche pour les relations locales. Cette combinaison atteint des performances état de l’art comparées aux architectures récurrentes linéaires (Mamba, DeltaNet) sur les benchmarks standard.