GCP (Google Cloud Platform)

GCP (Google Cloud Platform) est la plateforme cloud de Google qui fournit des services d’infrastructure, de calcul, de stockage, d’analytique et d’IA, avec un avantage distinctif sur les TPU (Tensor Processing Units), BigQuery et l’écosystème Gemini.

Éditeur: Google (Alphabet)
Type: Cloud computing (IaaS, PaaS, SaaS)
Part de marché: ≈ 13 % du marché cloud mondial (n°3 derrière AWS et Azure)
Régions: 43 régions, 130 zones, 200+ edge locations
IA / LLM: Vertex AI, Gemini 3.1 Pro, Gemini 3 Flash, Imagen 4.0, Veo 3.1
Accélérateurs: TPU v6e Trillium (GA), TPU v7 Ironwood (Preview), NVIDIA H100/A100
Pricing: Pay-as-you-go, Committed Use Discounts, Sustained Use Discounts
Essai gratuit: $300 de crédits pendant 90 jours + tier gratuit permanent
URL: cloud.google.com

Qu’est-ce que Google Cloud Platform ?

Google Cloud Platform est la division cloud d’Alphabet (maison mère de Google), lancée initialement avec App Engine en 2008 puis élargie progressivement à une suite complète de services cloud. Le principe est le même que les autres hyperscalers : vous louez de l’infrastructure (compute, stockage, réseau) dans les datacenters de Google au lieu de posséder et maintenir vos propres serveurs.

Ce qui rend GCP unique, c’est son ADN. La plateforme repose sur la même infrastructure que celle qui fait tourner Google Search, YouTube, Gmail et Google Maps, des services qui servent des milliards d’utilisateurs quotidiennement. Ce n’est pas juste du marketing : le réseau privé de Google (7,75 millions de kilomètres de fibre optique terrestre et sous-marine) offre concrètement des performances réseau supérieures pour les transferts de données entre régions.

GCP se distingue sur trois axes principaux : l’analytique données (BigQuery est un data warehouse serverless sans équivalent direct), l’IA native (Vertex AI, Gemini, TPU) et les containers (Google a créé Kubernetes, et GKE reste la référence en matière d’orchestration managée). Le revers de la médaille : le catalogue de services est plus restreint qu’AWS (100+ produits vs 200+), et l’écosystème enterprise est moins mature qu’Azure pour les entreprises déjà dans l’univers Microsoft.

GCP dans le marché cloud : chiffres et position

GCP occupe la troisième place du marché cloud mondial, avec environ 13 % de parts de marché. Mais cette troisième place est trompeuse : GCP affiche la croissance la plus forte des trois hyperscalers en pourcentage. Google Cloud a dégagé 15,2 milliards de dollars de revenus au T3 2025, soit une croissance de 34 % en glissement annuel. Et surtout, Google Cloud a atteint la rentabilité opérationnelle pour la première fois en 2025, un jalon important qui signale la maturité de la division.

Fournisseur	Part de marché (2025)	Croissance YoY	Revenus Q3 2025
AWS	≈ 30 %	≈ 20 %	$28,5 Mds
Azure	≈ 20 %	≈ 33 %	$26,8 Mds (Intelligent Cloud)
GCP	≈ 13 %	≈ 34 %	$15,2 Mds

La dynamique de GCP est portée par l’IA. Selon Alphabet, les revenus des produits construits sur ses modèles d’IA générative ont augmenté de plus de 200 % en glissement annuel au T3 2025. Vertex AI et les API Gemini sont les principaux moteurs de cette croissance.

Les services IA de GCP : Vertex AI et Gemini

L’IA est le terrain où GCP se bat le plus agressivement. La plateforme a trois atouts distincts : des modèles propriétaires (Gemini), des accélérateurs custom (TPU), et une plateforme ML unifiée (Vertex AI).

Vertex AI : la plateforme ML de bout en bout

Vertex AI est la plateforme unifiée de Google pour tout le cycle de vie du machine learning : préparation des données, entraînement, tuning, déploiement, monitoring et optimisation. Elle consolide ce qui était auparavant dispersé entre AutoML, AI Platform et de nombreuses API séparées.

Les composants clés de Vertex AI :

Model Garden : catalogue de modèles incluant Gemini, Llama, Mistral, Claude, et des centaines de modèles open-source. Déploiement en serverless ou en compute managé.

Vertex AI Studio : interface pour tester des prompts, affiner des modèles et prototyper des applications IA sans coder.

Agent Builder : constructeur d’agents IA à partir de simples prompts. Inclut « Autopilot », qui permet aux agents d’utiliser leur propre ordinateur virtuel dans le cloud.

AutoML : entraînement de modèles custom (image, texte, tabulaire) sans écrire de code d’entraînement.

Vertex AI Search : moteur de recherche pour construire des systèmes RAG sur vos données (10 000 requêtes/mois gratuites).

Model Optimizer : méta-endpoint qui route automatiquement vos requêtes Gemini vers le modèle optimal (Flash, Pro, etc.) selon le coût et la complexité. Vous n’avez plus à spécifier le modèle vous-même.

API Gemini : les modèles et leur pricing

Les modèles Gemini de Google sont accessibles via deux canaux : Google AI Studio (orienté développeurs, tier gratuit généreux) et Vertex AI (orienté enterprise, avec conformité et résidence des données). Le pricing est identique pour les deux canaux sur le tier payant.

Modèle	Input (par 1M tokens)	Output (par 1M tokens)	Contexte	Notes
Gemini 3.1 Pro	$2,00	$12,00	≈ 1M tokens	Flagship, surcoût >200K tokens
Gemini 3 Flash	$0,50	$3,00	≈ 1M tokens	Meilleur rapport coût/perf
Gemini 3.1 Flash-Lite	$0,25	$1,50	≈ 1M tokens	Tâches simples, volume
Gemini 2.5 Pro	$1,25	$10,00	≈ 1M tokens	Legacy, encore disponible
Gemini 2.5 Flash	$0,15	$0,60	≈ 1M tokens	Budget, surcoût >200K

Surcoût long contexte chez Google Contrairement à Anthropic qui a supprimé le surcoût long contexte le 13 mars 2026 pour Opus 4.6 et Sonnet 4.6, Google maintient un surcoût sur les requêtes dont l’input dépasse 200K tokens : les tarifs input et output doublent. C’est un facteur important si vous travaillez avec de longs documents ou des conversations à contexte étendu.

Tier gratuit Google AI Studio Google AI Studio offre un accès gratuit (avec rate limits) à Gemini 2.5 Flash, Flash-Lite et d’autres modèles pour le développement et les tests. C’est le tier gratuit le plus généreux du marché pour expérimenter avec des LLM, nettement plus permissif que ce que proposent OpenAI ou Anthropic.

Dépréciation à surveiller : Gemini 2.0 Flash et Gemini 2.0 Flash-Lite seront arrêtés le 1er juin 2026. Migrez vers les modèles Gemini 3.x pour éviter une interruption de service.

Autres services IA de GCP

Imagen 4.0 : génération d’images, disponible via l’API Gemini et Vertex AI.

Veo 3.1 : génération vidéo, accessible en preview via l’API Gemini (tier payant uniquement).

Cloud Vision AI, Natural Language AI, Speech-to-Text, Text-to-Speech : services IA spécialisés facturés à l’usage.

Document AI : extraction structurée de données depuis des documents (factures, contrats, formulaires).

TPU : l’arme secrète de Google

Les Tensor Processing Units sont des accélérateurs IA custom conçus par Google, optimisés spécifiquement pour les calculs matriciels des réseaux de neurones. C’est un différentiateur unique : ni AWS ni Azure ne disposent d’accélérateurs custom de cette envergure (AWS a Trainium/Inferentia, mais à une échelle moindre).

Générations de TPU

Génération	Nom	HBM/chip	Perf vs précédent	Statut
v5e	–	16 Go	Référence	GA
v5p	–	96 Go	Orienté training lourd	GA
v6e	Trillium	32 Go	4,7× compute vs v5e	GA (depuis fin 2024)
v7x	Ironwood	À confirmer	Prochaine génération	Preview (mars 2026)

Le TPU v6e (Trillium) est la star actuelle. Il offre 4,7x plus de performances de calcul par puce que le v5e, avec une efficacité énergétique supérieure de 67 %. Google a utilisé les TPU Trillium pour entraîner Gemini 2.0. Un pod Trillium de 256 puces fournit 91 exaflops de calcul, avec un scaling quasi-linéaire (99 % d’efficacité sur 3 072 puces, 94 % sur 6 144 puces).

En termes de coûts, les TPU v6e démarrent autour de $0,39 à $1,375 par puce-heure en on-demand, contre plus de $3/heure pour un GPU H100. Le spot pricing peut offrir 60 à 80 % de réduction supplémentaire, avec le risque de préemption.

La nouvelle génération TPU v7 (Ironwood) a été annoncée en preview en mars 2026, positionnée spécifiquement pour les workloads d’inférence à grande échelle.

TPU vs GPU : quand choisir les TPU ? Les TPU sont optimaux pour l’entraînement et l’inférence de modèles Transformer à grande échelle, surtout si vous utilisez JAX ou TensorFlow. Le ratio performance/dollar est excellent. En revanche, si votre stack est basée sur PyTorch et CUDA, la migration vers TPU demande un effort d’ingénierie non négligeable. Pour du prototypage ou des workloads PyTorch, les GPU NVIDIA restent plus pragmatiques.

BigQuery et l’analytique : le vrai fossé

Si vous demandez à un ingénieur data pourquoi il préfère GCP, la réponse sera souvent en un mot : BigQuery. C’est un data warehouse serverless, multi-cloud, avec intégration native de l’IA générative, capable de traiter des pétaoctets sans que vous ayez à gérer un seul cluster.

BigQuery se distingue par son absence totale de gestion d’infrastructure (pas de nœuds à provisionner, pas de scaling à configurer), sa tarification flexible (à la requête ou en flat-rate), et l’intégration de BigQuery ML qui permet d’entraîner des modèles ML directement en SQL. Ni AWS (Redshift) ni Azure (Synapse) n’offrent une expérience aussi fluide sur ce plan.

L’écosystème data de GCP est cohérent : Pub/Sub pour l’ingestion temps réel, Dataflow (Apache Beam) pour le traitement, Cloud Composer (Apache Airflow managé) pour l’orchestration, Data Catalog pour la gouvernance, et Looker pour la BI. Chaque brique s’intègre nativement avec les autres.

Containers et Kubernetes : le berceau de K8s

Google a créé Kubernetes en interne (projet Borg) avant de le donner en open source en 2014. Google Kubernetes Engine (GKE) bénéficie naturellement de cette expertise. GKE offre des fonctionnalités avancées comme Autopilot (mode entièrement managé), la live migration des VM (vos applications restent opérationnelles pendant la maintenance), et l’intégration native avec les TPU et GPU pour les workloads IA.

Cloud Run est l’option serverless pour les containers : vous déployez un container et Google gère tout le reste (scaling, infrastructure, TLS). C’est l’option la plus simple pour servir des API ou des modèles IA légers, avec un scale-to-zero qui vous évite de payer quand il n’y a pas de trafic.

Infrastructure globale

GCP opère 43 régions cloud et 130 zones de disponibilité dans le monde (chiffres mis à jour en mars 2026). Le réseau privé de Google, l’un des plus étendus au monde, comprend 7,75 millions de kilomètres de fibre et plus de 200 points de présence réseau (edge locations).

Les régions couvertes incluent l’Amérique du Nord (9 régions aux États-Unis + Canada), l’Europe (dont Paris avec europe-west9, Londres, Francfort, Zurich, Helsinki, Varsovie, Milan, Madrid, Berlin, et bientôt la Grèce et la Norvège), l’Asie-Pacifique (14 régions dont Tokyo, Singapour, Sydney), et le Moyen-Orient/Afrique.

Google gère activement son réseau avec de l’IA agentique : un jumeau numérique du réseau prédit et prévient les pannes, réduisant les durées d’interruption jusqu’à 93 % par rapport à une approche réactive.

Réseau vs nombre de régions Azure revendique 70+ régions contre 43 pour GCP, mais le nombre de régions n’est pas tout. Le réseau privé de Google offre souvent une meilleure latence inter-régions car le trafic reste sur le backbone Google plutôt que de transiter par l’internet public. Pour des workloads distribués mondialement, cette différence de qualité réseau peut compter plus que le nombre de régions.

Pricing GCP : ce qu’il faut savoir

GCP utilise un modèle de facturation à la consommation avec plusieurs mécanismes de réduction :

Pay-as-you-go : facturation à la seconde pour le compute (VM, containers), au token pour les API Gemini, à la requête ou au volume pour BigQuery.

Sustained Use Discounts (SUD) : réduction automatique (jusqu’à 30 %) appliquée aux VM qui tournent plus de 25 % du mois. Pas de configuration nécessaire, c’est automatique.

Committed Use Discounts (CUD) : engagement sur 1 ou 3 ans pour du compute ou des dépenses, avec des réductions pouvant atteindre 55-70 % selon la durée et le type de ressource.

Spot VMs : instances préemptibles avec des réductions de 60-91 %, mais Google peut les récupérer à tout moment. Idéal pour le batch processing, l’entraînement de modèles ou les jobs tolérants aux interruptions.

Essai gratuit : $300 de crédits valables 90 jours à l’ouverture du compte, plus un tier gratuit permanent sur de nombreux services (Compute Engine f1-micro, 5 Go Cloud Storage, BigQuery 1 To de requêtes/mois, etc.).

Vertex AI : surveillez les coûts d’endpoints Les endpoints de prédiction en ligne Vertex AI facturent à l’heure, même quand ils sont inactifs. Un endpoint e2-standard-2 coûte $0,077/heure en continu. Les équipes oublient souvent de dé-provisionner les endpoints de développement, accumulant des centaines de dollars par mois en charges fantômes. Mettez en place un nettoyage automatique avec des TTL sur vos endpoints de dev.

Sécurité et durabilité

GCP applique un modèle de sécurité Zero Trust par défaut. Toutes les données sont chiffrées en transit et au repos. Les puces de sécurité custom Titan protègent la couche hardware contre les modifications physiques. Le Confidential Computing (machines virtuelles avec mémoire chiffrée) permet de traiter des données sensibles sans que Google puisse y accéder, même au niveau infrastructure.

Sur la durabilité, Google est leader : l’entreprise compense 100 % de l’énergie consommée par ses opérations mondiales avec de l’énergie renouvelable, et vise un fonctionnement 24/7 à énergie décarbonée d’ici 2030. Les datacenters de Google sont environ 50 % plus efficaces énergétiquement que la moyenne du secteur. C’est un argument concret pour les entreprises avec des objectifs ESG.

Forces et faiblesses de GCP

Ce que GCP fait mieux que les autres

Data et analytique. BigQuery, Dataflow, Pub/Sub et Looker forment l’écosystème data le plus cohérent et le plus simple à utiliser parmi les trois hyperscalers. Si votre cas d’usage principal est l’analytique à grande échelle, GCP est le meilleur choix.

IA native et TPU. Les TPU offrent un rapport performance/prix imbattable pour les workloads Transformer (JAX/TensorFlow). L’intégration entre Vertex AI, Gemini et BigQuery est fluide. Le Model Optimizer qui route automatiquement vers le bon modèle est un vrai gain de temps et d’argent.

Containers et Kubernetes. GKE est le Gold Standard pour Kubernetes managé. Cloud Run offre l’expérience serverless la plus simple pour les containers.

Réseau. Le backbone privé de Google offre des performances réseau supérieures pour les charges distribuées globalement.

Durabilité. Le cloud le plus vert des trois hyperscalers, avec des outils de carbon-aware computing intégrés.

Où GCP est en retrait

Catalogue de services plus restreint. 100+ services vs 200+ pour AWS. Des lacunes subsistent dans certains domaines réseau et enterprise.

Écosystème enterprise moins mature. L’intégration avec les outils d’entreprise traditionnels (Active Directory, Office, SAP) est moins naturelle qu’avec Azure.

Disponibilité GPU inégale. Comme Azure, les GPU haut de gamme (H100, Blackwell) sont souvent en tension. Pour du GPU pur à prix compétitif, RunPod, Lambda Cloud ou Vast.ai offrent souvent une meilleure disponibilité.

Perception de stabilité produit. Google a la réputation de tuer des produits. Même si c’est moins vrai pour GCP (les services sont couverts par des SLA), cette perception persiste et freine certaines entreprises.

GCP vs Azure vs API directes pour les LLM

Si votre objectif principal est d’utiliser des LLM en production, voici comment GCP se positionne :

Critère	GCP (Vertex AI / Gemini)	Azure OpenAI	API directes (OpenAI, Anthropic)
Modèles propriétaires	Gemini 3.1 Pro, Flash, Flash-Lite	GPT-5.4, GPT-5, o3, o4-mini	Selon le fournisseur
Modèles tiers	Llama, Mistral, Claude (via Model Garden)	Llama, Mistral, DeepSeek (via Foundry)	Un seul fournisseur par API
Accélérateurs custom	TPU v6e Trillium, TPU v7 Ironwood	Non	Non
Tier gratuit LLM	Très généreux (AI Studio)	$200 crédits, 30 jours	Limité ou absent
Surcoût long contexte	Oui (>200K tokens)	Oui pour GPT-5.4 (>272K)	Variable (Anthropic : non)
Data analytics native	BigQuery (leader)	Fabric/Synapse	Non

Verdict Polydesk GCP est le meilleur choix si votre stack combine IA et analytique données (BigQuery + Vertex AI est une combinaison imbattable), si vous voulez utiliser les TPU pour de l’entraînement/inférence à grande échelle en JAX, ou si vous préférez les modèles Gemini. Azure est préférable si vous êtes dans l’écosystème Microsoft ou si vous avez besoin des modèles GPT avec des garanties enterprise. Pour du multi-modèle sans attache cloud, utilisez OpenRouter ou LiteLLM.

Démarrer avec GCP pour l’IA

Étape 1 : Créer un compte. Rendez-vous sur cloud.google.com. Vous obtenez $300 de crédits gratuits pendant 90 jours (plus généreux que les $200/30 jours d’Azure).

Étape 2 : Explorer Google AI Studio. Avant même de toucher à Vertex AI, testez vos prompts gratuitement dans Google AI Studio (ai.google.dev). C’est le moyen le plus rapide d’évaluer les modèles Gemini.

Étape 3 : Créer un projet Vertex AI. Dans la console GCP, activez l’API Vertex AI et créez un projet. Choisissez la région europe-west9 (Paris) si vous avez des contraintes RGPD.

Étape 4 : Déployer un modèle. Dans Model Garden, sélectionnez Gemini 3 Flash pour commencer (meilleur rapport coût/perf). Déployez en mode serverless.

Étape 5 : Intégrer via le SDK. Le SDK Python de Google est la voie la plus simple :

import google.generativeai as genai

genai.configure(api_key="VOTRE_CLE_API")

model = genai.GenerativeModel("gemini-3-flash")
response = model.generate_content("Bonjour GCP !")
print(response.text)

Pour Vertex AI en production (avec résidence des données et IAM) :

import vertexai
from vertexai.generative_models import GenerativeModel

vertexai.init(project="votre-projet", location="europe-west9")

model = GenerativeModel("gemini-3-flash")
response = model.generate_content("Bonjour Vertex AI !")
print(response.text)

Alternatives à GCP pour l’IA

Plateforme	Meilleur pour	Avantage vs GCP
Azure	Écosystème Microsoft, GPT enterprise	Intégration M365/AD, accès exclusif aux modèles OpenAI
AWS (Bedrock)	Multi-modèle, ML custom	Catalogue de services le plus large
Together AI	Inférence open-source à bas coût	Pricing agressif, spécialisé IA
Replicate	Déploiement rapide de modèles	Simplicité, pay-per-second
Modal	GPU serverless pour devs	DX supérieure, scale-to-zero
Lambda Cloud	GPU bare-metal	H100/A100 à prix compétitifs

Questions fréquentes sur GCP

Quelle est la différence entre Google AI Studio et Vertex AI ?

Google AI Studio (ai.google.dev) est l’environnement gratuit pour les développeurs qui veulent tester et prototyper avec les modèles Gemini. Il offre un tier gratuit généreux avec des rate limits modérés. Vertex AI (cloud.google.com/vertex-ai) est la plateforme enterprise complète avec résidence des données, IAM, conformité, fine-tuning, et l’ensemble des outils ML de GCP. Pour la production avec des exigences de conformité, vous avez besoin de Vertex AI. Pour du prototypage ou des projets personnels, Google AI Studio suffit.

GCP est-il moins cher qu’AWS et Azure ?

GCP est généralement compétitif sur le pricing, avec quelques avantages spécifiques. Les Sustained Use Discounts automatiques (jusqu’à 30 %) sont uniques à GCP et ne nécessitent aucun engagement. BigQuery en mode flat-rate est très compétitif pour l’analytique lourde. Les TPU offrent un meilleur rapport performance/prix que les GPU NVIDIA pour les workloads Transformer. Pour le compute générique (VM), les prix sont proches des trois hyperscalers. La vraie différence se fait sur l’optimisation des coûts, et GCP rend cela plus simple grâce à ses remises automatiques.

Les TPU sont-ils compatibles avec PyTorch ?

Oui, via PyTorch/XLA. Le support existe et fonctionne pour les cas standards. Cela dit, l’expérience est plus fluide avec JAX (le framework de Google) qui est le citoyen de première classe sur TPU. Si votre code est entièrement écrit en PyTorch avec des extensions CUDA custom, la migration vers TPU demandera un effort significatif. Pour du code PyTorch standard (sans noyaux CUDA custom), la transition est plus accessible.

Comment GCP gère-t-il la résidence des données en Europe ?

GCP propose plusieurs régions en Europe : Paris (europe-west9), Londres, Francfort, Zurich, Helsinki, Varsovie, Milan, Madrid, Berlin. Vous pouvez configurer vos ressources pour que les données ne quittent jamais une région spécifique. Les services Vertex AI et Gemini respectent la résidence des données quand vous spécifiez une région européenne. Pour les exigences RGPD, c’est suffisant dans la plupart des cas. Pour les exigences SecNumCloud spécifiques à la France, vérifiez les certifications de chaque service car la couverture n’est pas encore complète.

GCP convient-il aux petites équipes et startups ?

Oui, et c’est même l’un de ses points forts. Le tier gratuit de Google AI Studio permet de commencer sans dépenser un centime. Les $300 de crédits pendant 90 jours sont plus généreux que chez Azure ($200/30 jours). Cloud Run offre un scale-to-zero gratuit pour les APIs à faible trafic. Le programme Google for Startups Cloud offre des crédits cloud supplémentaires (jusqu’à $200 000 selon le programme). Comparé à Azure, dont la complexité de configuration est un frein pour les petites équipes, GCP offre une expérience développeur plus accessible.