Neural Engine (Apple Neural Engine / ANE)

Le Neural Engine est le nom commercial d’Apple pour son NPU (Neural Processing Unit), un bloc de cœurs spécialisés intégrés aux puces Apple Silicon (séries A et M) et dédiés à l’accélération des opérations d’intelligence artificielle et de machine learning directement sur l’appareil.

Introduit en 2017 avec la puce A11 Bionic de l’iPhone X, le Neural Engine a été le premier NPU commercialisé à grande échelle dans un smartphone. Depuis, il a été multiplié par 58x en performance (de 0,6 TOPS sur l’A11 à 35 TOPS sur l’A18, et 38 TOPS sur le M4). Il propulse Face ID, Apple Intelligence, la photographie computationnelle, Siri et l’ensemble des fonctionnalités IA on-device de l’écosystème Apple. En 2026, chaque iPhone, iPad, Mac et Apple Watch vendu intègre un Neural Engine.

Catégorie: NPU / Accélérateur IA on-device
Fabricant: Apple (conception), TSMC (fabrication)
Perf. actuelles: 35 TOPS (A18/A18 Pro, iPhone), 38 TOPS (M4, iPad/Mac), M5 Pro/Max avec Neural Accelerators GPU
Cœurs: 16 cœurs (depuis A14/M1), 2 cœurs sur Apple Watch (S4+)
Framework: Core ML, Create ML, MLX, Core ML Tools
Cas d’usage: Face ID, Apple Intelligence, photographie computationnelle, Siri, traduction, détection objets
Première apparition: Septembre 2017 (A11 Bionic, iPhone X)

L’évolution du Neural Engine : de 0,6 TOPS à 38 TOPS

L’histoire du Neural Engine est celle d’une progression exponentielle sur sept ans, avec un doublement approximatif des performances toutes les deux générations.

Puce	Année	Cœurs ANE	TOPS	Procédé	Innovation clé
A11 Bionic	2017	2	0,6	10 nm	Premier NPU commercial smartphone (Face ID)
A12 Bionic	2018	8	5	7 nm	Core ML ouvert aux développeurs tiers
A13 Bionic	2019	8	6	7 nm+	Accélérateurs ML dans le CPU (AMX blocks)
A14 Bionic	2020	16	11	5 nm	Passage à 16 cœurs, 2x perf. vs A13
M1	2020	16	11	5 nm	Premier Neural Engine sur Mac
A15 Bionic	2021	16	15,8	5 nm	15,8 TFLOPS FP16 = 26x l’A11
A16 Bionic	2022	16	17	4 nm	Efficacité énergétique améliorée
M3	2023	16	18	3 nm	Premier 3 nm Apple, Dynamic Caching GPU
A17 Pro	2023	16	35	3 nm	Saut de performance majeur (2x vs A16)
A18 / A18 Pro	2024	16	35	3 nm 2e gen	Apple Intelligence, 8 Go RAM, +17% bande passante
M4	2024	16	38	3 nm 2e gen	NPU le plus puissant d’Apple, 60x l’A11
M5 / M5 Pro / M5 Max	2025-2026	16	38+ (ANE) + Neural Accelerators GPU	2 nm (Fusion)	Neural Accelerators dans chaque cœur GPU (4x perf IA vs M4 Pro/Max)
A19 / A19 Pro	2025	16	35+	2 nm	Neural Accelerators GPU, bande passante améliorée

L’innovation majeure de la génération M5/A19 (2025-2026) est l’introduction de « Neural Accelerators » dans chaque cœur GPU, en plus du Neural Engine dédié. C’est une première pour Apple Silicon : l’IA est accélérée simultanément par le NPU ET le GPU, multipliant par 4x la performance IA totale sur le M5 Pro et M5 Max par rapport à la génération M4.

Les « 38 TOPS » en réalité Des tests de reverse-engineering sur le M4 ont révélé que le chiffre officiel de 38 TOPS est calculé selon la convention INT8 (19 TFLOPS FP16 × 2). Le Neural Engine exécute en réalité toutes les opérations en FP16 en interne, même si les poids sont en INT8 (les poids sont dé-quantifiés en FP16 avant le calcul). Le vrai pic de performance est donc de 19 TFLOPS FP16. L’INT8 économise la bande passante mémoire (poids plus petits à charger) mais pas les cycles de calcul. Ces tests ont mesuré une utilisation effective de 94% du pic théorique à 32+ couches de profondeur, ce qui est excellent.

Architecture technique du Neural Engine

Le Neural Engine est un bloc IP (Intellectual Property) dédié au sein du SoC Apple Silicon, distinct du CPU et du GPU. Il est spécialisé dans les opérations de réseaux de neurones : multiplications matricielles, convolutions, pooling et fonctions d’activation.

Pourquoi un processeur dédié ?

Un NPU comme le Neural Engine peut accélérer les tâches ML jusqu’à 10 000x par rapport à un CPU et consomme nettement moins d’énergie qu’un GPU pour les mêmes opérations. Cette efficacité est cruciale pour les appareils mobiles où chaque milliwatt compte. Le Neural Engine permet d’exécuter des modèles complexes (reconnaissance faciale 3D en 30 ms pour Face ID) sans impact perceptible sur l’autonomie de la batterie.

Le CPU possède aussi ses propres accélérateurs ML : les blocs AMX (Apple Matrix coprocessor), introduits avec l’A13 en 2019, qui effectuent des multiplications matricielles jusqu’à 6x plus vite que le CPU de l’A12. Le GPU contribue également aux tâches IA lorsque le Neural Engine est saturé ou pour des opérations non supportées. Avec les Neural Accelerators GPU du M5, cette coopération devient encore plus intégrée.

Fonctionnement interne

Le Neural Engine opère en FP16 (float16) en interne pour toutes les opérations de calcul. Les poids du modèle peuvent être stockés en INT8 pour économiser la bande passante mémoire, mais ils sont convertis en FP16 avant le calcul. L’ANE accède à la mémoire unifiée LPDDR5X du SoC (120 Go/s sur M4, amélioré sur M5), ce qui élimine les copies de données entre processeurs, un avantage de l’architecture mémoire unifiée d’Apple Silicon.

Le Neural Engine supporte nativement les opérations de convolution, de pooling, d’activation et les multiplications matricielles denses. En revanche, il ne supporte pas toutes les opérations : les opérations d’attention dynamique, certaines formes d’activations ou les formes dynamiques (tenseurs dont la taille change pendant l’inférence) peuvent nécessiter un fallback vers le CPU ou le GPU via Core ML.

Core ML : le framework pour exploiter le Neural Engine

Core ML est le framework d’Apple qui permet aux développeurs de déployer des modèles de machine learning sur les appareils Apple. C’est l’interface entre le modèle entraîné et le Neural Engine.

Pipeline de déploiement

1. Entraînement : le modèle est entraîné avec n’importe quel framework (PyTorch, TensorFlow, JAX) sur un GPU cloud ou un Mac.

2. Conversion : l’outil coremltools (Python) convertit le modèle au format .mlmodel ou .mlpackage. Pendant la conversion, coremltools applique automatiquement des optimisations : quantization, fusion d’opérateurs, sélection du backend optimal (CPU, GPU ou ANE).

3. Délégation automatique : Core ML décide automatiquement quel processeur (CPU, GPU ou Neural Engine) exécute chaque couche du modèle. Les développeurs peuvent influencer ce choix via l’option ComputeUnit (.all, .cpuAndGPU, .cpuAndNeuralEngine, .cpuOnly), mais Core ML reste libre de déléguer certaines opérations non supportées au CPU.

4. Inférence on-device : le modèle tourne localement avec une latence de l’ordre de quelques millisecondes pour la classification d’images, et de 50 à 200 ms pour les SLM. Les données ne quittent jamais l’appareil.

Outils complémentaires

Create ML : application macOS pour entraîner des modèles directement sur Mac, sans écrire de code. Supporte la classification d’images, la détection d’objets, le NLP, la classification de sons et la détection d’activité. Les modèles résultants sont optimisés pour le Neural Engine.

MLX : framework open source d’Apple optimisé pour la mémoire unifiée d’Apple Silicon. Permet de faire tourner des LLM/SLM (Llama, Gemma, Phi, Mistral) localement sur Mac. C’est le framework de référence pour l’inférence LLM locale sur Apple Silicon en 2026, exploitant la bande passante mémoire élevée de l’architecture unifiée.

Core ML Tools : bibliothèque Python pour la conversion, l’optimisation et la validation des modèles. Supporte la quantization automatique (INT8, palettization), le pruning et la compression de modèles.

Ce que le Neural Engine propulse concrètement

Face ID

L’application originale du Neural Engine. Face ID effectue une cartographie 3D du visage en temps réel (projection de 30 000 points infrarouges, capture par caméra TrueDepth, analyse par réseau de neurones). Le Neural Engine exécute la reconnaissance faciale en moins de 30 ms, sans toucher le CPU. Le taux de faux positifs est de 1 sur 1 000 000 (contre 1 sur 50 000 pour Touch ID). Aucune donnée biométrique ne quitte l’appareil. Face ID a été le premier proof-of-concept démontrant que l’IA on-device à grande échelle était commercialement viable, et a directement poussé Samsung, Qualcomm et MediaTek à accélérer le développement de leurs propres NPU.

Apple Intelligence

Lancée en 2024 et étendue en 2025-2026, Apple Intelligence est l’ensemble des fonctionnalités IA on-device d’Apple : résumé de notifications, réécriture de texte, Smart Reply dans Mail, suppression d’objets dans Photos, Siri amélioré, transcription vocale, génération d’images (Image Playground). Ces fonctionnalités reposent sur des Apple Foundation Models (~3 milliards de paramètres) exécutés localement par le Neural Engine. Les tâches trop complexes pour le modèle local sont envoyées vers le Private Cloud Compute d’Apple.

Apple Intelligence nécessite au minimum un iPhone 15 Pro (puce A17 Pro, 8 Go RAM) ou un Mac/iPad avec puce M1 ou ultérieure. La barrière d’entrée est le volume de RAM : les modèles de ~3B paramètres quantifiés en INT4 (~1,5 Go) nécessitent un minimum de 8 Go de RAM pour coexister avec l’OS et les applications.

Photographie computationnelle

Chaque photo prise sur iPhone passe par des dizaines de modèles ML exécutés par le Neural Engine : détection de scène, segmentation sémantique, fusion HDR multi-images, réduction de bruit, correction de la balance des blancs, amélioration des détails, mode portrait (estimation de profondeur et flou d’arrière-plan). Le tout en quelques centaines de millisecondes, invisible pour l’utilisateur. Il n’existe plus de photo « sans filtre » sur un smartphone moderne : le Neural Engine traite chaque image capturée.

Autres applications

Siri : reconnaissance vocale on-device, traitement du langage naturel local pour les commandes simples.

Traduction en temps réel : traduction de texte et de parole directement sur l’appareil, sans connexion internet.

Live Text / Visual Look Up : reconnaissance de texte dans les images, identification d’objets (plantes, animaux, monuments).

Santé : détection d’arythmie cardiaque (Apple Watch), analyse des patterns de sommeil, détection de chute. L’Apple Watch embarque un Neural Engine 2 cœurs (depuis le S4) suffisant pour ces tâches de classification légères.

Développeurs tiers : depuis l’ouverture de Core ML aux développeurs avec l’A12 (2018), des milliers d’apps exploitent le Neural Engine pour la retouche photo, la reconnaissance de documents, la traduction, la réalité augmentée, le fitness et l’accessibilité.

Optimiser un modèle pour le Neural Engine

Le Neural Engine offre d’excellentes performances, mais il a des contraintes spécifiques que les développeurs doivent connaître :

Opérations supportées : l’ANE supporte nativement les convolutions, les multiplications matricielles denses, le pooling et les activations standard (ReLU, sigmoid, etc.). Les opérations d’attention dynamique, les shapes dynamiques et certaines activations exotiques peuvent ne pas être supportées et seront automatiquement redirigées vers le CPU par Core ML, avec une chute de performance.

Précision FP16 : l’ANE calcule en FP16. La quantization INT8 des poids économise la bande passante mémoire mais pas les cycles de calcul (dé-quantification en FP16 avant calcul). Optimisez vos modèles pour FP16 en priorité.

Architecture des modèles : Apple a publié un guide technique « Deploying Transformers on the Apple Neural Engine » qui détaille les patterns d’architecture optimaux pour l’ANE. Les points clés : éviter les opérations non supportées, utiliser des shapes statiques quand c’est possible, structurer les tenseurs pour minimiser les transposes.

Profiling : utilisez Instruments (Xcode) avec le template « Core ML » pour profiler l’exécution de votre modèle sur l’ANE. Identifiez les couches qui retombent sur le CPU et optimisez-les ou restructurez votre modèle pour les éviter.

Conseil pour les développeurs Si votre modèle est conçu avec PyTorch, utilisez coremltools pour la conversion et spécifiez compute_units=ct.ComputeUnit.CPU_AND_NE pour forcer l’exécution sur le Neural Engine. Testez avec et sans l’ANE pour mesurer le gain réel. Si certaines couches retombent sur le CPU, consultez le guide Apple sur les opérations supportées et envisagez de restructurer votre modèle.

Neural Engine vs la concurrence

NPU	Fabricant	TOPS (officiel)	Plateforme	Forces
Neural Engine (A18 Pro)	Apple	35	iPhone	Intégration verticale, Core ML, Apple Intelligence
Neural Engine (M4)	Apple	38	iPad, Mac	Mémoire unifiée LPDDR5X, MLX pour LLM
Hexagon NPU (Snapdragon 8 Elite)	Qualcomm	75	Android flagship	TOPS brut le plus élevé, eNPU always-on
Tensor TPU (G5)	Google	~45	Pixel	Optimisé pour Gemini Nano, traduction prédictive
Exynos NPU	Samsung	~35	Galaxy (certains marchés)	Dual-core NPU, intégration Bixby
APU 790 (Dimensity 9300+)	MediaTek	~40	Android milieu/haut de gamme	Bon rapport performance/prix

En TOPS brut, le Qualcomm Hexagon domine (75 TOPS). Mais les benchmarks réels racontent une histoire différente : l’intégration verticale d’Apple (puce + OS + framework + modèle) produit des performances effectives supérieures à ce que les TOPS seuls suggèrent. L’Apple Neural Engine atteint 94% d’utilisation de son pic théorique en conditions de test, un chiffre que peu de concurrents égalent. Pour la traduction AR en temps réel, les tests de terrain de début 2026 montrent qu’Apple Intelligence offre la latence « glass-to-gaze » la plus basse grâce à cette optimisation verticale.

Verdict

Le Neural Engine d’Apple a inauguré l’ère de l’IA on-device en 2017 et reste en 2026 l’un des NPU les mieux intégrés du marché. Sa force n’est pas dans les TOPS bruts (Qualcomm le surpasse sur ce plan) mais dans l’écosystème complet : la puce, l’OS, le framework Core ML, les outils de développement (coremltools, Create ML, MLX) et les modèles (Apple Foundation Models) sont conçus ensemble pour fonctionner ensemble. C’est cette intégration verticale qui permet à un iPhone de faire tourner un modèle de 3 milliards de paramètres localement avec une latence de 50 ms et sans impact perceptible sur la batterie.

Pour les développeurs ciblant iOS/macOS : Core ML est le chemin le plus direct vers le Neural Engine. Utilisez coremltools pour convertir vos modèles PyTorch/TensorFlow, profitez de la quantization automatique, et profilez avec Instruments. Pour les LLM locaux sur Mac, MLX est le framework de choix, exploitant pleinement la mémoire unifiée d’Apple Silicon. L’arrivée des Neural Accelerators GPU sur le M5 ouvre de nouvelles possibilités pour les workloads IA intensifs (rendu 3D IA, LLM plus grands, multi-modèles simultanés).

Le partenariat Apple-Google Gemini (janvier 2026) renforce encore l’écosystème : les modèles de fondation d’Apple seront entraînés avec l’aide du modèle Gemini 1,2 trillion de paramètres, mais toute l’exécution on-device restera sur le Neural Engine via les Apple Foundation Models. L’IA sur iPhone n’a jamais été aussi capable, et elle reste 100% locale pour les tâches courantes.

Questions fréquentes sur le Neural Engine

Qu’est-ce que le Neural Engine et à quoi sert-il ?

Le Neural Engine est le NPU (Neural Processing Unit) d’Apple, un bloc de cœurs spécialisés dans l’accélération des opérations d’intelligence artificielle intégré aux puces A-series (iPhone) et M-series (iPad, Mac). Il propulse Face ID, Apple Intelligence, la photographie computationnelle, Siri, la traduction en temps réel et des milliers d’apps tierces via Core ML. Son avantage principal : il exécute les tâches IA beaucoup plus vite et avec moins d’énergie qu’un CPU ou un GPU, ce qui permet des fonctionnalités IA sophistiquées sans impact sur l’autonomie de la batterie.

Quel iPhone est nécessaire pour Apple Intelligence ?

Apple Intelligence nécessite au minimum un iPhone 15 Pro (puce A17 Pro, 8 Go RAM) ou tout modèle iPhone 16/17. Les modèles antérieurs (iPhone 15 standard, iPhone 14, etc.) ne sont pas compatibles car ils n’ont que 6 Go de RAM, insuffisants pour les Apple Foundation Models de ~3B paramètres. Sur iPad et Mac, il faut une puce M1 ou ultérieure. La barrière est autant le volume de RAM que la puissance du Neural Engine.

Comment déployer un modèle sur le Neural Engine via Core ML ?

Entraînez votre modèle avec PyTorch ou TensorFlow. Convertissez-le au format .mlmodel avec coremltools (Python) en spécifiant les compute units (CPU_AND_NE pour cibler le Neural Engine). Core ML gère automatiquement la délégation des opérations : les couches supportées par l’ANE y sont exécutées, les autres retombent sur le CPU ou le GPU. Profilez votre modèle avec Instruments (Xcode, template Core ML) pour identifier les couches qui ne tournent pas sur l’ANE et optimisez-les. Pour les LLM sur Mac, utilisez MLX qui exploite la mémoire unifiée d’Apple Silicon.

Les « 38 TOPS » du M4 sont-ils réels ?

Le chiffre officiel de 38 TOPS est calculé selon la convention INT8 (19 TFLOPS FP16 × 2). En pratique, le Neural Engine calcule toujours en FP16 en interne, même si les poids sont en INT8. Le vrai pic de performance est de 19 TFLOPS FP16. L’INT8 économise la bande passante mémoire (poids plus petits à charger depuis la RAM) mais pas les cycles de calcul. Cela dit, des tests de reverse-engineering ont mesuré une utilisation effective de 94% du pic théorique, ce qui est excellent et confirme l’efficacité de l’architecture Apple.

Quelle est la différence entre le Neural Engine et les NPU concurrents (Qualcomm, Google) ?

Le Qualcomm Hexagon NPU (75 TOPS sur Snapdragon 8 Elite) domine en TOPS bruts. Le Google Tensor TPU (~45 TOPS) est optimisé pour Gemini Nano. Mais le Neural Engine d’Apple se distingue par son intégration verticale : Apple contrôle la puce, l’OS, le framework (Core ML) et les modèles (Apple Foundation Models), ce qui produit des performances effectives souvent supérieures aux TOPS seuls. Pour la traduction AR temps réel, Apple offre la latence la plus basse. En revanche, l’écosystème Apple est fermé : un modèle optimisé pour le Neural Engine ne tourne que sur des appareils Apple, alors que ONNX Runtime permet le déploiement cross-platform sur NPU Qualcomm, Intel et AMD.