Edge AI (Intelligence Artificielle en périphérie)
L’Edge AI désigne l’exécution d’algorithmes d’intelligence artificielle directement sur des appareils locaux (smartphones, capteurs IoT, caméras, véhicules, robots), sans dépendre d’une connexion à un serveur cloud pour le traitement des données.
Au lieu d’envoyer vos données vers un data center pour obtenir une prédiction en retour, le modèle tourne localement sur l’appareil lui-même. Le résultat : une latence inférieure à la milliseconde, un fonctionnement hors connexion, une confidentialité renforcée (les données ne quittent jamais l’appareil) et une réduction massive des coûts de bande passante. Le marché mondial de l’Edge AI est estimé à environ 25 milliards de dollars en 2025 et devrait dépasser 100 milliards de dollars d’ici 2033, avec un taux de croissance annuel supérieur à 20%.
- Catégorie
- Architecture IA / Déploiement
- Principe
- Inférence IA locale sur l’appareil, sans round-trip cloud
- Matériel clé
- NVIDIA Jetson (40-275 TOPS), Qualcomm Snapdragon NPU (75 TOPS), Apple Neural Engine (35 TOPS), Google Coral Edge TPU (4 TOPS), Hailo-8 (26 TOPS)
- Frameworks
- TensorFlow Lite (LiteRT), ONNX Runtime, Core ML, TensorRT, PyTorch Mobile, Edge Impulse
- Optimisations
- Quantization, pruning, knowledge distillation, model compression
- Secteurs
- Industrie 4.0, automobile, santé, retail, IoT, smartphones, robotique
- Marché
- ~25 Mds $ (2025), TCAC ~22% jusqu’en 2033
Pourquoi exécuter l’IA en périphérie plutôt que dans le cloud ?
L’architecture classique de l’IA repose sur un schéma centralisé : l’appareil collecte les données, les envoie au cloud, un modèle traite la requête, et le résultat revient à l’appareil. Ce modèle fonctionne bien pour les chatbots ou la génération de texte, mais il atteint ses limites dans quatre situations critiques.
Latence temps réel
Un véhicule autonome qui roule à 130 km/h parcourt 3,6 mètres par milliseconde. Un aller-retour cloud de 100 ms (latence typique) signifie 36 cm parcourus avant de recevoir la réponse. Pour le freinage d’urgence, c’est inacceptable. L’Edge AI permet une inférence locale en moins d’une milliseconde, ce qui rend possibles les applications critiques en temps réel : conduite autonome, contrôle qualité sur ligne de production, diagnostic médical embarqué.
Confidentialité et conformité
Avec le RGPD, le HIPAA et l’AI Act européen (pleinement applicable en août 2026), envoyer des données biométriques, médicales ou vidéo vers des serveurs cloud crée des risques juridiques majeurs. L’Edge AI résout le problème à la source : les données sont traitées localement et ne quittent jamais l’appareil. C’est l’approche adoptée par Apple pour ses fonctionnalités d’IA (reconnaissance faciale, transcription vocale) et par les fabricants de dispositifs médicaux connectés.
Bande passante et coûts cloud
Une caméra de surveillance 1080p génère environ 1,5 Gbit/s de données brutes. Envoyer le flux de centaines de caméras vers le cloud pour analyse en temps réel est économiquement absurde. L’Edge AI traite le flux localement et ne remonte que les alertes pertinentes (intrusion détectée, anomalie identifiée), réduisant le volume de données transmises de 99%.
Fiabilité hors ligne
Un robot industriel, un drone agricole ou un capteur de pipeline en zone isolée ne peuvent pas dépendre d’une connexion internet stable. L’Edge AI garantit que l’intelligence continue de fonctionner même en cas de coupure réseau.
Le matériel Edge AI : du microcontrôleur au module haute performance
Le choix du matériel est la décision la plus structurante d’un projet Edge AI. La performance se mesure en TOPS (Tera Operations Per Second) et en TOPS/Watt (efficacité énergétique). Voici les trois catégories principales.
SoC haute performance (15-275 TOPS)
NVIDIA Jetson AGX Orin : le module le plus puissant du marché edge avec 275 TOPS. Architecture Ampere, support CUDA complet, 64 Go de mémoire sur la variante haut de gamme. Consommation : 10-60 W selon le mode. C’est la référence pour la robotique, les véhicules autonomes et l’inspection industrielle multi-caméras. L’écosystème logiciel NVIDIA (JetPack, TensorRT, DeepStream) est son avantage concurrentiel majeur : un modèle développé sur GPU datacenter NVIDIA peut être déployé sur Jetson avec des modifications minimales.
NVIDIA Jetson Thor : la nouvelle plateforme annoncée pour l’inférence temps réel dans les systèmes industriels et robotiques. Présentée au GTC 2026 avec des démonstrations de LLM locaux (Qwen3 4B via vLLM) tournant entièrement on-device sur des engins de chantier Caterpillar.
Qualcomm Robotics RB5 : intègre la connectivité 5G avec un moteur IA de ~15 TOPS via le Qualcomm AI Engine. Cible : robots autonomes et drones nécessitant à la fois traitement IA local et communication haut débit.
NPU dédiées (2-26 TOPS)
Les NPU (Neural Processing Units) sont des accélérateurs spécialisés dans l’exécution de réseaux de neurones. Contrairement aux SoC complets, elles se concentrent exclusivement sur l’inférence et sont associées à un processeur hôte qui gère le reste.
Hailo-8 : accélérateur dédié délivrant jusqu’à 26 TOPS avec une consommation de seulement 2,5 W, soit environ 10 TOPS/W. C’est l’un des meilleurs ratios performance/watt du marché. Disponible en module autonome ou intégré au Raspberry Pi via le AI HAT+ (~13 TOPS pour le Hailo-8L). Supporte les modèles TensorFlow, PyTorch et ONNX via son compilateur propriétaire.
Google Coral Edge TPU : ASIC conçu pour exécuter des modèles TensorFlow Lite à 4 TOPS pour seulement 2 W. Disponible en clé USB (~60 $) ou carte de développement (~130 $). Excellent pour le prototypage rapide, mais limité aux opérations supportées par le compilateur Edge TPU. Les couches non supportées retombent sur le CPU avec une chute de performance massive.
Intel Movidius (Neural Compute Stick 2) : accélérateur USB basé sur le VPU Myriad X. Pratique pour la R&D et le prototypage avec OpenVINO, mais les performances sont inférieures à Hailo et Coral.
Accélérateurs MCU-class (0,5-2 TOPS)
C’est le territoire du TinyML : des blocs d’accélération IA intégrés dans des microcontrôleurs ultra-basse consommation (moins de 1 W). Ils exécutent des modèles minuscules pour la détection de mots-clés (wake words), la classification de signaux capteurs, la reconnaissance de gestes simples ou la maintenance prédictive basique.
Les plateformes typiques incluent les MCU Arm Cortex-M avec accélération CMSIS-NN, les ESP32 avec support TensorFlow Lite Micro, et les puces spécialisées comme le Syntiant NDP120 pour le traitement audio ultra-basse consommation.
Smartphones : l’Edge AI la plus déployée au monde
Le matériel Edge AI le plus répandu est déjà dans votre poche. Le Qualcomm Snapdragon 8 Elite embarque un NPU Hexagon délivrant 75 TOPS. L’Apple Neural Engine de la puce A18 Pro atteint 35 TOPS avec 16 cœurs dédiés. Chaque flagship Android ou iPhone vendu est une plateforme Edge AI capable de faire tourner des modèles de plusieurs milliards de paramètres localement.
Apple Intelligence exécute un modèle de ~3 milliards de paramètres on-device pour la synthèse de texte, la réécriture et les réponses intelligentes sur iPhone 15 Pro et ultérieurs. Google exécute Gemma 2B localement. Microsoft fait tourner Phi-3 Mini (3,8B paramètres) sur mobile. Les SLM (Small Language Models) locaux sont passés du concept à la production.
| Plateforme | TOPS | Consommation | Prix indicatif | Cas d’usage |
|---|---|---|---|---|
| NVIDIA Jetson AGX Orin (64 Go) | 275 | 15-60 W | ~999 $+ | Robotique, véhicule autonome, multi-caméras |
| NVIDIA Jetson Orin Nano (8 Go) | 40 | 7-15 W | ~250 $ | Vision industrielle, LLM léger on-device |
| Hailo-8 | 26 | 2,5 W | ~80-100 $ | Caméras intelligentes, inspection visuelle |
| Raspberry Pi 5 + AI HAT+ | 13 | ~5-10 W | ~150 $ total | Prototypage, détection d’objets, hobby |
| Google Coral USB Accelerator | 4 | 2 W | ~60 $ | Prototypage TFLite, IoT léger |
| Qualcomm Snapdragon 8 Elite (mobile) | 75 | 5-12 W | Intégré au smartphone | IA on-device mobile, photo, NLP |
| Apple A18 Pro Neural Engine | 35 | ~3-8 W | Intégré à l’iPhone | Apple Intelligence, Core ML |
Optimisation des modèles pour l’edge
Un modèle entraîné sur GPU cloud (FP32, des centaines de Mo voire des Go) ne peut pas tourner directement sur un appareil edge. Il faut l’optimiser. Quatre techniques complémentaires existent.
Quantization
La quantization réduit la précision numérique des poids et activations du modèle. Passer de FP32 (32 bits) à INT8 (8 bits) divise la taille du modèle par 4 et accélère l’inférence de 2 à 4x sur la plupart du matériel, avec une perte de précision généralement inférieure à 2%.
Trois approches principales :
Post-training quantization (PTQ) : la plus simple. Vous convertissez un modèle déjà entraîné en INT8 sans ré-entraînement. Rapide à mettre en œuvre mais avec une perte de précision potentiellement plus élevée.
Quantization-aware training (QAT) : le modèle est entraîné en simulant la quantization pendant le training. Résultat : meilleure précision post-quantization, mais coût d’entraînement plus élevé. C’est la méthode recommandée quand la précision est critique.
Quantization dynamique : les poids sont quantifiés statiquement mais les activations sont quantifiées dynamiquement à l’inférence. Bon compromis entre simplicité et performance.
Pruning (élagage)
Le pruning supprime les poids ou les neurones qui contribuent peu à la performance du modèle. On distingue le pruning non structuré (suppression de poids individuels, crée des matrices creuses) et le pruning structuré (suppression de filtres ou canaux entiers, plus compatible avec le matériel standard).
En pratique, un taux de pruning de 30 à 60% offre un bon équilibre entre compression et précision. Combiné avec la quantization, le pruning permet des réductions de taille de 10x ou plus.
Knowledge distillation
La knowledge distillation consiste à entraîner un petit modèle (« étudiant ») à reproduire le comportement d’un grand modèle (« professeur »). Le modèle étudiant apprend non seulement les bonnes réponses mais aussi la distribution de probabilité du modèle professeur sur toutes les classes, ce qui transfère une connaissance plus riche que l’entraînement sur les labels seuls.
C’est la technique derrière les modèles compacts comme MobileNet, EfficientNet-Lite et les SLM (Small Language Models) qui propulsent l’IA on-device sur smartphone.
Architectures nativement efficientes
Plutôt que de compresser un gros modèle, on peut directement concevoir des architectures optimisées pour l’edge. Les familles MobileNet (Google), EfficientNet (Google), et les modèles issus de la Neural Architecture Search (NAS) sont conçus dès le départ pour maximiser le rapport précision/FLOPS.
En vision par ordinateur, MediaPipe (Google) exécute la détection de pose à 30 fps sur un CPU mobile sans aucun accélérateur dédié. En NLP, des modèles comme Phi-3 Mini (3,8B), Gemma 2B et Llama 3.2 3B sont conçus pour l’inférence on-device.
Frameworks et outils de déploiement
Le choix du framework dépend de votre plateforme cible et de l’écosystème dans lequel vous travaillez.
TensorFlow Lite (LiteRT)
Le framework le plus mature pour l’edge. Il convertit un modèle TensorFlow en format .tflite optimisé via un converter intégré qui gère la quantization, le pruning et le clustering. Supporte Android, iOS, Linux embarqué et microcontrôleurs (via TFLite Micro). Le système de « delegates » permet de déléguer l’inférence à des accélérateurs hardware (GPU mobile, Edge TPU, DSP Hexagon) de manière transparente. Son toolkit de quantization est le plus complet du marché.
ONNX Runtime
Le format ONNX (Open Neural Network Exchange) est le standard d’interopérabilité entre frameworks (PyTorch, TensorFlow, etc.). ONNX Runtime est le moteur d’inférence cross-platform de Microsoft, supportant CPU, GPU, NPU et accélérateurs spécialisés via des « execution providers ». Son outil Olive simplifie l’optimisation, le pruning et la quantization pour des cibles hardware spécifiques. C’est le choix naturel pour les déploiements multi-plateformes.
NVIDIA TensorRT
SDK d’inférence haute performance de NVIDIA, optimisé pour les GPU NVIDIA (datacenter et Jetson). TensorRT compile un modèle ONNX en un « engine » optimisé spécifiquement pour le GPU cible, avec fusion d’opérateurs, calibration INT8 et optimisation de la mémoire. Résultat : des gains de 2x à 10x par rapport à une inférence PyTorch standard. C’est le standard de facto pour le déploiement sur Jetson.
Apple Core ML
Le framework d’Apple pour iOS et macOS, avec intégration native du Neural Engine d’Apple Silicon. Supporte l’entraînement on-device, la quantization automatique et l’optimisation pour chaque variante de puce Apple. Si votre cible est exclusivement iOS/macOS, Core ML offre les meilleures performances et l’intégration la plus fluide.
Edge Impulse
Plateforme cloud-to-edge qui couvre le pipeline complet : collecte de données, entraînement, optimisation et déploiement sur des centaines de cibles matérielles (MCU, Jetson, Coral, Raspberry Pi). Particulièrement adapté aux équipes qui débutent en Edge AI ou qui déploient sur des flottes hétérogènes d’appareils. Supporte la classification audio, la détection d’objets, la détection d’anomalies et le TinyML.
Intel OpenVINO
Toolkit d’optimisation et de déploiement pour les processeurs Intel (CPU, GPU intégrée, VPU Movidius). Convertit les modèles PyTorch/TensorFlow/ONNX en un format intermédiaire optimisé pour le matériel Intel. Pertinent si votre déploiement cible des PC ou des serveurs edge équipés de processeurs Intel.
| Framework | Éditeur | Matériel cible | Forces | Limites |
|---|---|---|---|---|
| TensorFlow Lite | Android, iOS, MCU, Edge TPU | Maturité, quantization toolkit, delegates hardware | Conversions complexes, support iOS en retrait | |
| ONNX Runtime | Microsoft | Cross-platform (CPU, GPU, NPU) | Interopérabilité, multi-framework, Olive | Moins optimisé que les frameworks natifs par plateforme |
| TensorRT | NVIDIA | GPU NVIDIA (datacenter + Jetson) | Performance maximale sur GPU NVIDIA | Verrouillé sur l’écosystème NVIDIA |
| Core ML | Apple | iOS, macOS (Neural Engine) | Intégration native Apple Silicon | Exclusivement Apple |
| Edge Impulse | Edge Impulse | MCU, SBC, Jetson, Coral | Pipeline complet, multi-cible | Dépendance à la plateforme cloud |
| OpenVINO | Intel | CPU/GPU Intel, Movidius | Optimisé pour Intel | Performances limitées hors écosystème Intel |
Cas d’usage concrets par secteur
Industrie 4.0 et maintenance prédictive
L’industrie est le secteur qui adopte l’Edge AI le plus rapidement, avec le TCAC le plus élevé du marché (environ 23%). Les cas d’usage majeurs :
Inspection visuelle automatisée : des caméras équipées de NPU (Hailo, Jetson) analysent chaque produit sur la ligne de production. Un modèle YOLOv8 détecte les défauts de soudure, les rayures ou les pièces manquantes en temps réel. Les déploiements réels rapportent des améliorations de qualité de l’ordre de 30%.
Maintenance prédictive : des capteurs de vibration et de température alimentent un modèle d’anomaly detection embarqué qui détecte les dérives des équipements des millisecondes avant la panne. Les déploiements industriels rapportent des réductions de temps d’arrêt non planifié de l’ordre de 25%.
Automobile et ADAS
La conduite autonome est l’application phare de l’Edge AI haute performance. Le passage du niveau SAE 2+ (mains libres, yeux sur la route) au niveau 3 (yeux libres sous conditions) en 2026 transfère la responsabilité du conducteur au constructeur, ce qui exige des capacités Edge AI encore plus fiables.
Tesla utilise sa puce FSD (Full Self-Driving) custom, un ASIC dédié. NVIDIA domine le segment avec sa plateforme DRIVE. Qualcomm et Ambarella (CV5, 20+ TOPS optimisé vision) se positionnent sur les ADAS de milieu de gamme.
Santé et dispositifs médicaux
Les wearables médicaux analysent les signes vitaux en temps réel (rythme cardiaque, SpO2, ECG) avec des modèles embarqués. Les équipements d’imagerie médicale embarquent de l’IA pour fournir une analyse préliminaire instantanée sans envoyer les données du patient vers le cloud, ce qui garantit la conformité HIPAA et le respect de la vie privée.
Retail intelligent
Le retail est l’un des secteurs en croissance la plus rapide. MediaTek a lancé sa plateforme Genio au NRF 2026 pour l’IA générative on-device dans les systèmes de caisse et de gestion des stocks. Les cas d’usage incluent la reconnaissance de produits sans code-barres, l’analyse du trafic en magasin et la gestion dynamique des stocks via des caméras intelligentes.
Agriculture et énergie
Les drones agricoles embarquent des modèles de détection d’adventices et de maladies pour le traitement de précision. Les capteurs de smart grid utilisent l’Edge AI pour la détection d’anomalies dans la distribution électrique. Dans les deux cas, la connectivité réseau est souvent limitée ou absurde, ce qui rend l’edge computing indispensable.
Architecture hybride : edge + cloud
L’Edge AI ne remplace pas le cloud. Elle le complète. L’architecture la plus efficace est hybride :
Inférence à l’edge : les requêtes temps réel (détection d’objets, classification, alertes) sont traitées localement. Le modèle compact tourne 24/7 sur l’appareil avec une latence minimale.
Entraînement dans le cloud : les modèles sont entraînés sur GPU cloud (A100, H100), optimisés (quantization, pruning), puis déployés sur les appareils edge. Quand le modèle edge rencontre un cas difficile (faible confiance), la requête peut être renvoyée au cloud pour traitement par un modèle plus puissant.
Federated learning : le federated learning permet d’entraîner un modèle global en agrégeant les apprentissages locaux de milliers d’appareils edge, sans centraliser les données brutes. C’est l’approche de Google pour le clavier Gboard et d’Apple pour les suggestions de texte.
Mise à jour OTA (Over-The-Air) : les modèles edge sont mis à jour à distance. C’est un défi opérationnel majeur pour les flottes d’appareils hétérogènes : il faut gérer le versioning, le rollback, la validation post-déploiement et la surveillance des performances sur chaque variante hardware. Des plateformes comme Edge Impulse adressent ce problème.
Défis et limites de l’Edge AI
Fragmentation matérielle : le plus gros problème. Un modèle qui tourne à 60 fps sur un Snapdragon 8 Elite peut tourner à 4 fps sur un MediaTek budget. Il faut soit cibler le plus petit dénominateur commun, soit maintenir plusieurs variantes du modèle pour différentes cibles hardware. C’est comparable au défi du développement web multi-navigateurs, mais en pire.
Compromis précision/taille : l’optimisation pour l’edge dégrade toujours un peu la précision. Une quantization INT8 typique perd 1-3% de précision. Un pruning à 50% peut perdre davantage sur des tâches complexes. Il faut définir des seuils de performance minimale acceptables et les valider sur chaque cible.
Pénurie de mémoire : la crise mondiale de la mémoire (DRAM, NAND), causée par la consommation massive des datacenters IA en mémoire HBM, a poussé les prix des composants à des niveaux qui transforment l’économie des appareils edge. IDC décrit cette réallocation des wafers comme structurelle, pas cyclique, avec des effets attendus jusqu’en 2027.
Gestion de flotte : déployer et mettre à jour des modèles sur des milliers d’appareils hétérogènes en production est un défi opérationnel que l’écosystème logiciel n’a pas encore entièrement résolu. Le MLOps edge est encore immature par rapport au MLOps cloud.
Sécurité du modèle : un appareil edge est physiquement accessible. Le modèle peut être extrait, rétro-ingénieré ou attaqué par injection adversarielle. La protection de la propriété intellectuelle du modèle (chiffrement, obfuscation) est un enjeu spécifique à l’edge.
Comment démarrer un projet Edge AI
1. Définir les contraintes. Latence maximale acceptable ? Budget énergétique ? Taille physique ? Connectivité disponible ? Ces contraintes déterminent la catégorie de matériel (SoC, NPU ou MCU).
2. Choisir le matériel. Pour prototyper : Raspberry Pi 5 + Hailo AI HAT+ (~150 $, 13 TOPS). Pour la production industrielle : Jetson Orin Nano (40 TOPS) ou Hailo-8 (26 TOPS). Pour mobile : vous héritez du NPU du smartphone cible.
3. Entraîner le modèle. Entraînez en cloud avec PyTorch ou TensorFlow. Préférez des architectures nativement efficientes (MobileNet, EfficientNet, YOLO) plutôt que de compresser un ResNet-152 après coup.
4. Optimiser pour la cible. Quantization (PTQ pour commencer, QAT si la précision est insuffisante). Pruning si nécessaire. Conversion au format cible (TFLite, ONNX, TensorRT). Validation de la précision et de la latence sur le matériel réel, pas en simulation.
5. Déployer et monitorer. Mettez en place un pipeline de mise à jour OTA, un système de monitoring de la performance en production (latence, confiance, taux d’erreur) et un mécanisme de rollback. Prévoyez un fallback cloud pour les cas limites.
Verdict
L’Edge AI n’est plus une technologie émergente. En 2026, c’est un marché de plusieurs dizaines de milliards de dollars avec du matériel mature (Jetson, Hailo, Coral), des frameworks stabilisés (TFLite, ONNX Runtime, TensorRT) et des modèles optimisés prêts à l’emploi. La question n’est plus « faut-il faire de l’Edge AI ? » mais « quel niveau d’intelligence embarquer sur l’appareil ? ».
Pour les développeurs, le conseil est clair : commencez par un Raspberry Pi + Hailo AI HAT+ pour prototyper, utilisez TFLite ou ONNX Runtime pour la portabilité, et ciblez Jetson pour les déploiements industriels exigeants. La quantization INT8 post-training est votre premier levier d’optimisation : elle divise la taille du modèle par 4 avec moins de 2% de perte de précision. Si vous déployez sur mobile, exploitez les NPU des SoC Qualcomm et Apple plutôt que de faire tourner votre modèle sur le CPU.
La pénurie de mémoire, la pression réglementaire (RGPD, AI Act) et la montée des coûts cloud accélèrent le mouvement vers l’edge. Les entreprises qui investissent maintenant dans leurs pipelines model deployment edge prendront un avantage structurel sur celles qui restent dépendantes du cloud pour chaque inférence.
Questions fréquentes sur l’Edge AI
Quelle est la différence entre Edge AI et cloud AI ?
Le cloud AI envoie les données vers des serveurs distants pour le traitement, puis renvoie le résultat à l’appareil. L’Edge AI exécute le modèle directement sur l’appareil local (smartphone, capteur, caméra, robot). L’Edge AI offre une latence quasi nulle, un fonctionnement hors ligne et une meilleure confidentialité des données. Le cloud AI offre une puissance de calcul supérieure et la capacité d’exécuter des modèles beaucoup plus grands. En pratique, l’architecture optimale est hybride : inférence temps réel à l’edge, entraînement et cas complexes dans le cloud.
Quel matériel choisir pour démarrer un projet Edge AI ?
Pour le prototypage et l’apprentissage : Raspberry Pi 5 + Hailo AI HAT+ (~150 $, 13 TOPS) ou Google Coral USB Accelerator (~60 $, 4 TOPS). Pour la production industrielle : NVIDIA Jetson Orin Nano (40 TOPS, ~250 $) pour les performances, Hailo-8 (26 TOPS, 2,5 W) pour l’efficacité énergétique. Pour le TinyML sur microcontrôleur : Arduino Nano 33 BLE Sense ou ESP32-S3. Le critère décisif est le rapport TOPS/Watt pour les applications alimentées par batterie, et le TOPS brut pour les applications alimentées secteur.
Comment optimiser un modèle de deep learning pour l’exécuter sur un appareil edge ?
Quatre techniques complémentaires : la quantization (réduction de FP32 à INT8, divise la taille par 4), le pruning (suppression des poids inutiles, 30-60% de compression), la knowledge distillation (entraîner un petit modèle à reproduire un gros modèle) et le choix d’une architecture nativement efficiente (MobileNet, EfficientNet). En pratique, commencez toujours par la post-training quantization (PTQ), c’est le meilleur ratio gain/effort. Si la précision est insuffisante, passez au quantization-aware training (QAT). Convertissez ensuite au format de votre cible (TFLite, ONNX, TensorRT) et validez sur le matériel réel.
L’Edge AI peut-elle faire tourner des LLM (modèles de langage) localement ?
Oui, mais avec des modèles compacts. Les SLM (Small Language Models) de 2 à 4 milliards de paramètres tournent déjà sur smartphones et appareils edge : Phi-3 Mini (3,8B) sur mobile, Gemma 2B sur Android, Llama 3.2 3B sur Jetson Orin Nano. Apple Intelligence exécute un modèle de ~3B paramètres on-device pour la synthèse et la réécriture de texte. Sur Jetson AGX Orin 64 Go, on peut exécuter des modèles allant jusqu’à ~20B paramètres avec vLLM. Ces modèles ne rivalisent pas avec GPT-5 ou Claude Opus, mais ils suffisent pour la classification, le résumé, l’extraction d’entités et les requêtes simples, le tout sans latence réseau et avec une confidentialité totale.
Quels sont les secteurs qui adoptent le plus l’Edge AI ?
L’industrie manufacturière est en tête (inspection visuelle, maintenance prédictive, contrôle qualité). L’automobile suit de près avec les systèmes ADAS et la conduite autonome. La santé déploie l’Edge AI dans les wearables médicaux et l’imagerie diagnostique embarquée. Le retail intelligent est en forte croissance avec l’inventaire automatisé et l’IA générative on-device pour les points de vente. L’agriculture et l’énergie adoptent l’edge pour les déploiements en zones sans connectivité fiable (drones, capteurs de smart grid). Le plus gros volume déployé reste cependant les smartphones, où chaque flagship embarque désormais un NPU capable de dizaines de TOPS.