NPU (Neural Processing Unit)

Un NPU (Neural Processing Unit, ou processeur neuronal) est un accélérateur matériel spécialisé, intégré dans les processeurs de smartphones, PC et tablettes, conçu pour exécuter efficacement les calculs d’inférence des réseaux de neurones directement sur l’appareil, sans recourir au cloud.

Quand votre iPhone déverrouille votre visage avec Face ID, quand votre PC Windows applique un flou d’arrière-plan en visioconférence, ou quand votre smartphone améliore automatiquement la qualité de vos photos, c’est un NPU qui travaille. Ces unités sont optimisées pour les multiplications matricielles à basse précision (INT8, INT4) et fonctionnent avec une consommation électrique de quelques watts seulement, contre 30 à 300 watts pour un GPU dédié. La performance des NPU se mesure en TOPS (Trillion Operations Per Second, soit des trillions d’opérations par seconde).

Signification: Neural Processing Unit (processeur neuronal)
Fonction: Inférence IA on-device à faible consommation
Intégration: Intégré au SoC (System on Chip), non amovible
Apple: Neural Engine (38 TOPS sur M4, 16 cœurs)
Intel: AI Boost / NPU (48 TOPS sur Core Ultra 200V « Lunar Lake »)
AMD: XDNA / Ryzen AI (50 TOPS sur Ryzen AI 300)
Qualcomm: Hexagon NPU (45-85 TOPS sur Snapdragon X Elite / X2)
Seuil Copilot+ PC: 40 TOPS minimum (Microsoft)
Consommation: ~5-10 watts (vs 30-40 W pour un GPU intégré)
Précisions: INT8, INT4, FP16 (selon le NPU)

Comment fonctionne un NPU

Architecture spécialisée

Un NPU est architecturalement proche d’un GPU mais poussé dans une direction très spécifique : l’exécution optimale des réseaux de neurones. Là où un GPU peut faire du rendu graphique, du calcul scientifique et de l’IA, un NPU ne fait qu’une chose : des multiplications matricielles à basse précision (INT8, INT4, parfois FP16) le plus vite possible avec le moins d’énergie possible.

Le NPU contient des unités de multiplication-accumulation (MAC) massivement parallèles, organisées en matrices systoliques ou en architectures dataflow. Chaque cycle, des centaines ou des milliers d’opérations MAC s’exécutent simultanément. La mémoire est organisée pour minimiser les mouvements de données (le coût énergétique principal en IA), avec des caches et des buffers proches des unités de calcul.

Le NPU est intégré directement dans le SoC (System on Chip) aux côtés du CPU et du GPU intégré. Vous ne pouvez pas l’ajouter à un appareil existant : il fait partie de la puce. C’est une différence fondamentale avec les GPU dédiés qu’on peut acheter et installer séparément.

Pourquoi un NPU plutôt que le CPU ou le GPU ?

Le CPU peut exécuter de l’IA, mais il n’est pas optimisé pour ça : il consomme beaucoup d’énergie pour peu de TOPS. Le GPU intégré est meilleur, mais il consomme 30 à 40 watts sous charge IA, ce qui vide la batterie d’un laptop rapidement. Le NPU réalise les mêmes tâches d’inférence à 5 à 10 watts, soit 3 à 8× plus efficace en énergie que le GPU pour les workloads IA. Sur un laptop, cette différence se traduit par 1,5 à 3 heures d’autonomie supplémentaire lors de tâches IA intensives (visioconférence avec effets IA, sous-titrage en temps réel, etc.).

L’autre avantage du NPU est la confidentialité. Les données traitées par le NPU restent sur l’appareil. Face ID n’envoie jamais votre visage à un serveur Apple. Les sous-titres générés localement ne transitent pas par le cloud. C’est un argument de plus en plus important pour les entreprises et les particuliers soucieux de la vie privée.

Comparatif des NPU actuels

Fabricant	NPU	Processeur	TOPS	API / Framework	Notes
AMD	XDNA 2	Ryzen AI 300	50	ROCm, DirectML, ONNX Runtime	Leader TOPS sur PC x86
Intel	AI Boost (NPU 4)	Core Ultra 200V (Lunar Lake)	48	OpenVINO, DirectML, ONNX	Excellent écosystème dev
Qualcomm	Hexagon	Snapdragon X Elite	45	SNPE, QNN, DirectML	ARM, excellente autonomie
Qualcomm	Hexagon (X2)	Snapdragon X2	~85	SNPE, QNN, DirectML	Prochaine gén. (annoncé)
Apple	Neural Engine	M4	38	Core ML	16 cœurs dédiés, écosystème fermé
Apple	Neural Engine	M5	Supérieur	Core ML	+ Neural Accelerators GPU (MLX)
Apple	Neural Engine	A18 Pro (iPhone)	35	Core ML	Apple Intelligence
Google	Edge TPU	Tensor G4 (Pixel)	Variable	TensorFlow Lite	Intégré aux Pixel
Samsung	NPU	Exynos 2400	Variable	Samsung Neural SDK	Galaxy S24+

Que signifie « TOPS » ? TOPS = Trillion Operations Per Second (trillions d’opérations par seconde). C’est la métrique standard pour comparer les NPU. Attention : les TOPS sont mesurés en INT8 ou INT4 selon les fabricants, ce qui rend les comparaisons directes parfois trompeuses. Un NPU à 50 TOPS en INT8 n’est pas directement comparable à un NPU à 85 TOPS mesuré en INT4. Vérifiez toujours la précision utilisée dans les benchmarks.

Les principaux NPU en détail

Apple Neural Engine

Apple a été le premier à populariser le NPU grand public avec le Neural Engine de l’A11 Bionic en 2017 (600 milliards d’opérations par seconde, 2 cœurs). Depuis, chaque génération a multiplié les performances. L’A18 Pro (iPhone 16 Pro) embarque un Neural Engine de 16 cœurs à 35 TOPS. Sur Mac, les puces M4 atteignent 38 TOPS. Le Neural Engine est accessible via Core ML, un framework très mature et bien documenté, mais exclusif à l’écosystème Apple.

Avec la puce M5, Apple a franchi un cap en ajoutant des Neural Accelerators directement dans les cœurs GPU, en plus du Neural Engine séparé. Ces accélérateurs sont exploités par MLX et Metal 4, offrant jusqu’à 4× de gains sur certaines opérations matricielles par rapport au M4. C’est une approche hybride qui brouille la frontière entre NPU et GPU.

Intel AI Boost

Intel a intégré un NPU dans ses processeurs Meteor Lake (Core Ultra 100, fin 2023), mais avec seulement ~10 TOPS, insuffisant pour Copilot+. La génération Lunar Lake (Core Ultra 200V, 2024) a corrigé le tir avec 48 TOPS. L’écosystème développeur d’Intel repose sur OpenVINO, un toolkit open source mature qui optimise les modèles pour le NPU, le GPU intégré et le CPU. C’est l’un des écosystèmes les plus complets pour le développement d’applications IA on-device sur PC.

AMD XDNA (Ryzen AI)

AMD a été le premier fabricant x86 à intégrer un NPU dans ses processeurs PC (Ryzen 7040, 2023), mais avec des performances initiales modestes (10-16 TOPS). La série Ryzen AI 300 avec l’architecture XDNA 2 a atteint 50 TOPS, le score le plus élevé parmi les processeurs x86. AMD propose le Ryzen AI SDK pour le développement, avec support DirectML et ONNX Runtime. L’architecture XDNA est basée sur la technologie acquise via le rachat de Xilinx (FPGAs adaptatifs).

Qualcomm Hexagon

Qualcomm est un vétéran du NPU grâce à son expérience mobile. Le Hexagon NPU du Snapdragon X Elite (45 TOPS) a été le premier à alimenter des Copilot+ PC. Sur mobile, le Snapdragon 8 Gen 3 offre 73 TOPS. Le Snapdragon X2 annoncé pour les PC pousse à environ 85 TOPS. L’avantage de Qualcomm est son architecture ARM, qui offre une excellente efficacité énergétique. L’inconvénient est la compatibilité logicielle : certaines applications x86 nécessitent une émulation sur les PC ARM Qualcomm.

NPU et Copilot+ PC

Microsoft a défini en 2024 le standard Copilot+ PC : pour qu’un PC Windows soit labellisé Copilot+, il doit disposer d’un NPU d’au moins 40 TOPS. Ce seuil est nécessaire pour exécuter les fonctionnalités IA de Windows comme Windows Recall (historique visuel de vos activités), les effets Windows Studio (flou d’arrière-plan, contact visuel forcé en visio), les sous-titres en temps réel, et d’autres fonctionnalités IA intégrées à Windows 11.

En pratique, les processeurs qui atteignent ce seuil en mars 2026 sont les AMD Ryzen AI 300 (50 TOPS), les Intel Core Ultra 200V « Lunar Lake » (48 TOPS), et les Qualcomm Snapdragon X Elite/Plus (45 TOPS). Les processeurs plus anciens (Intel Meteor Lake avec 10 TOPS, AMD Ryzen 7000/8000 avec 12-16 TOPS) ne sont pas éligibles Copilot+, même s’ils possèdent un NPU.

Les desktop n’ont pas (encore) de NPU utile Les CPU desktop Intel actuels n’intègrent pas de NPU. AMD propose des Ryzen desktop avec NPU (série Ryzen 7000/8000), mais leurs NPU sont trop faibles pour Copilot+ (12-16 TOPS). Si vous assemblez un PC de bureau et que vous voulez de l’IA locale, un GPU dédié (RTX 4060 Ti ou supérieur) est incomparablement plus performant qu’un NPU. Les NPU brillent sur les laptops et les appareils mobiles où l’autonomie et la consommation comptent.

Cas d’usage concrets des NPU

Sur smartphone

Les NPU de smartphone sont les plus matures, avec des années d’optimisation. Les cas d’usage incluent la photographie computationnelle (HDR, mode nuit, flou portrait, gomme magique), la reconnaissance faciale (Face ID sur iPhone, déverrouillage sur Android), la reconnaissance vocale (Siri, Google Assistant en mode on-device), la traduction en temps réel (Samsung Galaxy AI, Apple Intelligence), et l’amélioration audio (suppression de bruit, isolation vocale en appel).

Apple a été le pionnier avec le Neural Engine dans l’A11 Bionic (iPhone 8/X, 2017), capable de 600 milliards d’opérations par seconde. Depuis, chaque génération a multiplié les performances. Le A18 Pro (iPhone 16 Pro) atteint 35 TOPS avec un Neural Engine de 16 cœurs. Qualcomm a suivi avec le Hexagon Tensor Accelerator dans le Snapdragon 845 (2018).

Sur PC et laptop

Sur PC, les cas d’usage NPU incluent les effets de visioconférence (flou d’arrière-plan, recadrage automatique, contact visuel simulé via Windows Studio Effects), les sous-titres et la transcription en temps réel, la recherche sémantique locale (Windows Recall), l’accélération d’applications créatives (filtres IA dans Adobe Lightroom, DaVinci Resolve), et de plus en plus la complétion de texte et l’assistance IA locale.

L’écosystème logiciel est encore jeune. La plupart des applications ne tirent pas encore parti du NPU. Les développeurs doivent explicitement optimiser leurs applications pour chaque NPU via les API spécifiques (Core ML pour Apple, OpenVINO pour Intel, DirectML ou ONNX Runtime pour Windows). L’absence de standard universel est un frein majeur à l’adoption. Le groupe Khronos travaille sur la standardisation des interfaces IA, mais ce processus prendra du temps.

NPU et LLM locaux : les limites

La question que beaucoup se posent : un NPU peut-il faire tourner un LLM localement ? La réponse courte est : pas vraiment, en tout cas pas de manière comparable à un GPU.

Un NPU à 50 TOPS en INT8 semble puissant, mais un LLM de 7 milliards de paramètres nécessite de lire environ 4 Go de poids (en quantification 4-bit) pour chaque token généré. La bande passante mémoire du NPU (qui partage la RAM système) est le facteur limitant, pas les TOPS. En pratique, un NPU est capable de faire tourner de très petits modèles (1-3B paramètres) pour des tâches ciblées (résumé court, classification, extraction d’entités), mais pas de servir un chatbot conversationnel complet de qualité comparable à ChatGPT ou Claude.

Pour l’inférence de LLM sur un laptop, le GPU intégré (via Metal sur Mac, ou Vulkan/CUDA sur PC) ou un GPU dédié reste nettement supérieur au NPU. Des outils comme llama.cpp, Ollama ou MLX utilisent le GPU (intégré ou dédié), pas le NPU.

Écosystème développeur

Chaque fabricant de NPU a son propre écosystème logiciel, ce qui complique le développement multi-plateforme :

Plateforme	API / Framework	Maturité	Langages
Apple (Neural Engine)	Core ML, MLX	Excellente	Swift, Python, Objective-C
Intel (AI Boost)	OpenVINO, DirectML	Bonne	C++, Python
AMD (XDNA)	Ryzen AI SDK, DirectML, ONNX	En progression	C++, Python
Qualcomm (Hexagon)	SNPE, QNN, DirectML	Bonne (mobile)	C++, Python, Java
Windows (universel)	DirectML, Windows ML, ONNX Runtime	Correcte	C++, C#, Python
Android (universel)	TensorFlow Lite (LiteRT), NNAPI	Bonne	Java, Kotlin, C++

Sur Windows, DirectML et ONNX Runtime servent de couches d’abstraction qui peuvent cibler le NPU de n’importe quel fabricant (Intel, AMD, Qualcomm). C’est l’approche la plus portable, mais elle n’exploite pas toujours 100% des capacités spécifiques de chaque NPU. Sur Apple, Core ML est très mature et bien intégré, mais totalement fermé à l’écosystème Apple.

NPU vs GPU vs TPU : positionnement

Critère	NPU	GPU (dédié)	TPU
Emplacement	Intégré au SoC (mobile, laptop)	Carte dédiée (PC, serveur)	Cloud Google uniquement
Consommation	5-10 W	150-700 W	40-300 W
Performance (TOPS)	35-85 (INT8)	Centaines à milliers	Milliers
Usage principal	Inférence on-device (petits modèles)	Training + inférence (tous modèles)	Training + inférence à grande échelle
LLM	Très petits modèles (1-3B)	Tous modèles (7B à 100B+)	Tous modèles (frontier)
Entraînement	Non (inférence uniquement)	Oui	Oui
Autonomie batterie	Excellent	N/A (desktop/serveur)	N/A (cloud)

Verdict : Le NPU n’est pas un concurrent du GPU ou du TPU. C’est un complément. Il cible les tâches IA légères qui doivent fonctionner en permanence avec une faible consommation (effets caméra, reconnaissance vocale, classification). Pour les tâches lourdes (LLM, génération d’images, entraînement), le GPU ou le TPU restent indispensables.

L’avenir des NPU

Plusieurs tendances se dessinent. La première est la montée en puissance : le Qualcomm Snapdragon X2 annonce environ 85 TOPS, et chaque génération de processeur double ou triple les performances NPU. D’ici 2027-2028, les NPU de laptop pourraient atteindre 150-200 TOPS, suffisant pour exécuter des modèles de 7B paramètres de manière fluide.

La seconde est la standardisation logicielle. Le Khronos Group (responsable d’OpenGL, Vulkan, OpenCL) travaille sur la standardisation des interfaces IA dans Vulkan et OpenCL, ce qui pourrait réduire la fragmentation et faciliter le développement d’applications IA portables entre NPU de différents fabricants.

La troisième est la convergence NPU/GPU. Apple montre la voie avec les Neural Accelerators du M5, qui sont intégrés directement dans les cœurs GPU plutôt que dans un NPU séparé. Cette approche brouille la frontière entre GPU et NPU et pourrait devenir la norme si elle prouve son efficacité.

La quatrième est l’IA toujours active (always-on AI). Les NPU permettent d’exécuter des modèles IA en permanence sans impact notable sur la batterie : détection de mots-clés vocaux, monitoring de santé, traduction simultanée, assistance contextuelle. Les futurs OS (Windows, macOS, Android, iOS) exploiteront de plus en plus le NPU pour des fonctionnalités IA intégrées et transparentes.

Questions fréquentes sur les NPU

Peut-on ajouter un NPU à un PC existant ?

Non. Le NPU est intégré directement dans le processeur (SoC) et ne peut pas être ajouté rétroactivement. Si vous voulez un NPU, vous devez acheter un appareil équipé d’un processeur qui en intègre un (Intel Core Ultra, AMD Ryzen AI 300, Qualcomm Snapdragon X, Apple M-series). Pour un PC de bureau existant, un GPU dédié (même d’entrée de gamme) sera infiniment plus performant pour l’IA qu’un NPU de laptop.

Mon PC a-t-il besoin d’un NPU ?

En mars 2026, le NPU reste optionnel pour la plupart des utilisateurs. Les fonctionnalités qui l’exploitent (Copilot+ PC, Windows Studio Effects, sous-titres en temps réel) sont utiles mais pas indispensables. Si vous faites de la visioconférence intensive, les effets caméra NPU sont un vrai plus. Pour l’IA générative (chatbots, génération d’images), le NPU n’est pas suffisant : un GPU dédié ou un service cloud sera bien plus performant.

Quelle est la différence entre un NPU et le Neural Engine d’Apple ?

Le Neural Engine d’Apple est un NPU. C’est le nom qu’Apple donne à son accélérateur IA intégré dans les puces A-series (iPhone/iPad) et M-series (Mac). Il fonctionne de la même manière que les NPU Intel, AMD et Qualcomm, mais utilise l’API Core ML spécifique à Apple. Apple a été pionnier dans ce domaine avec le Neural Engine de l’A11 Bionic en 2017, bien avant que les fabricants de PC n’intègrent des NPU dans leurs processeurs.

Un NPU peut-il faire tourner ChatGPT localement ?

Non, pas dans sa forme complète. Les modèles derrière ChatGPT (GPT-5.4) font des centaines de milliards de paramètres et nécessitent des GPU serveur massifs. Un NPU de laptop à 50 TOPS peut faire tourner de très petits modèles de langage (1-3 milliards de paramètres) pour des tâches limitées (résumé, classification). Pour un chatbot local de qualité, utilisez plutôt Ollama ou llama.cpp avec le GPU de votre machine (intégré ou dédié), pas le NPU.

Tous les NPU sont-ils compatibles entre eux ?

Non. Chaque fabricant a ses propres API : Core ML (Apple), OpenVINO (Intel), SNPE/QNN (Qualcomm), Ryzen AI SDK (AMD). Les développeurs doivent soit cibler chaque NPU séparément, soit utiliser des couches d’abstraction comme DirectML (Windows) ou ONNX Runtime qui supportent plusieurs NPU. Cette fragmentation est le principal frein à l’adoption des NPU par les développeurs. Le Khronos Group travaille sur des standards, mais la convergence prendra du temps.