ChatGPT Operator (Agent Mode) : l’agent IA qui agit pour vous
ChatGPT Operator, désormais intégré dans ChatGPT sous le nom « Agent Mode », est un agent IA capable de naviguer sur le web, remplir des formulaires, comparer des prix, réserver des billets, créer des documents et exécuter des workflows multi-étapes de manière autonome, le tout depuis son propre ordinateur virtuel, sous votre supervision.
- Lancement
- Janvier 2025 (Operator) → Juillet 2025 (intégré dans ChatGPT comme Agent Mode)
- Technologie
- Computer-Using Agent (CUA) : navigateur visuel + terminal + API
- Accès
- Pro, Plus, Team (quotas variables)
- Durée d’une tâche
- 5 à 30 minutes selon la complexité
- Activation
- Menu outils > « Agent Mode » ou taper
/agent - Verdict
- Le passage d’assistant passif à agent actif. Encore imparfait, mais déjà transformateur pour les tâches répétitives
Qu’est-ce que ChatGPT Operator ?
Pendant trois ans, ChatGPT a été un assistant passif : il vous donnait des réponses, du code, des liens, mais c’était à vous de cliquer, copier-coller, et exécuter. Operator change la donne. C’est un agent qui prend le contrôle d’un navigateur web et d’un ordinateur virtuel pour accomplir des tâches à votre place.
Vous dites « Réserve-moi un vol pour Tokyo à moins de 800 dollars », et l’agent ouvre un navigateur, compare les prix sur plusieurs sites, filtre les résultats selon vos préférences, et vous présente les options pour confirmation avant de finaliser. Pendant ce temps, vous pouvez faire autre chose.
Operator a été lancé en janvier 2025 comme produit séparé sur operator.chatgpt.com, réservé aux abonnés Pro ($200/mois). En juillet 2025, OpenAI l’a intégré directement dans ChatGPT sous le nom « Agent Mode », en fusionnant les capacités d’Operator (navigation web) et de Deep Research (synthèse d’information) dans une seule expérience unifiée. Le site operator.chatgpt.com a été fermé peu après.
Comment fonctionne Agent Mode
ChatGPT Agent Mode repose sur un Computer-Using Agent (CUA) qui dispose de quatre outils principaux :
Un navigateur visuel. L’agent ouvre un vrai navigateur dans un environnement cloud isolé. Il voit les pages web comme un humain les verrait (via des captures d’écran fréquentes), et interagit avec elles en cliquant, scrollant, tapant, et remplissant des formulaires. Ce n’est pas un appel API invisible : l’agent navigue visuellement dans l’interface graphique des sites.
Un navigateur texte. Pour les recherches web simples qui ne nécessitent pas d’interaction visuelle, l’agent utilise un navigateur textuel plus léger et plus rapide.
Un terminal. L’agent peut exécuter des commandes en ligne de commande, lancer des scripts Python, manipuler des fichiers, créer des tableurs, des présentations et des rapports.
Un accès API direct. Via les connecteurs ChatGPT (Gmail, Google Drive, Google Calendar, GitHub, SharePoint, etc.), l’agent peut interroger vos données et prendre des actions dans ces services.
L’ensemble fonctionne sur un ordinateur virtuel dédié à votre session. Le contexte est maintenu entre tous les outils : l’agent peut chercher des informations sur le web, les traiter avec un script Python, puis les intégrer dans un tableur Excel, le tout dans la même tâche.
Accès et quotas
| Plan | Accès Agent Mode | Quotas indicatifs |
|---|---|---|
| Free | ❌ | Non disponible |
| Go ($8/mois) | ❌ | Non disponible |
| Plus ($20/mois) | ✅ | ~40 tâches agent/mois |
| Pro ($200/mois) | ✅ | Quotas largement étendus |
| Team ($25/user/mois) | ✅ | Quotas Team |
| Enterprise | ✅ | Flexible pricing (crédits) |
Pour activer Agent Mode, ouvrez n’importe quelle conversation ChatGPT, cliquez sur le menu d’outils (dropdown dans le compositeur), et sélectionnez « Agent Mode ». Vous pouvez aussi taper /agent dans la zone de message. Décrivez votre tâche, et l’agent se met au travail.
Les quotas du plan Plus (~40 tâches agent par mois) peuvent être limitants pour un usage intensif. Si vous utilisez Agent Mode quotidiennement, le plan Pro à $200/mois ou le plan Team offrent des quotas plus confortables.
L’évolution d’Operator : de la preview à l’intégration
L’histoire d’Operator illustre la stratégie d’OpenAI pour déployer les agents IA de manière progressive et sécurisée.
Janvier 2025 : lancement d’Operator en research preview. Premier produit séparé, accessible uniquement aux abonnés Pro ($200/mois) aux États-Unis. L’agent utilisait le modèle Computer-Using Agent (CUA) pour naviguer sur le web via un navigateur distant. Les capacités étaient limitées : navigation basique, remplissage de formulaires, achats simples. Plusieurs sites bloquaient déjà l’agent (Reddit, YouTube, Figma).
Premier semestre 2025 : expansion progressive. Accès étendu aux abonnés Plus et Team. Ajout de partenariats avec des sites e-commerce pour améliorer la compatibilité. Améliorations de la stabilité et de la gestion des CAPTCHAs.
Juillet 2025 : fusion dans ChatGPT comme Agent Mode. OpenAI a fusionné Operator (navigation web) et Deep Research (synthèse d’informations) dans une expérience unifiée au sein de ChatGPT. Le site operator.chatgpt.com a été fermé. L’agent a gagné un terminal, un accès API direct, des connecteurs (Gmail, Drive, Calendar, GitHub), et la capacité de créer des documents (tableurs, présentations, rapports).
Mars 2026 : état actuel. Agent Mode est alimenté par GPT-5.4 pour la planification et le raisonnement. Il est disponible sur web, mobile (iOS/Android) et apps desktop (macOS/Windows). Les tâches récurrentes programmables sont disponibles. Le score de 75% sur OSWorld (benchmark de computer use) en fait l’agent le plus performant du marché sur les tâches d’automatisation desktop/web.
L’API Computer-Using Agent pour les développeurs
Pour les développeurs qui veulent construire leurs propres agents, OpenAI expose le modèle CUA (Computer-Using Agent) via l’API. Cela permet de créer des agents personnalisés qui naviguent sur le web, remplissent des formulaires, et automatisent des workflows spécifiques à votre entreprise.
Les cas d’usage développeur incluent : l’automatisation de tests d’interfaces web (l’agent navigue et vérifie les comportements), le scraping intelligent de sites qui résistent aux méthodes classiques (l’agent « voit » la page comme un humain), et la construction de pipelines d’automatisation business (traitement de factures, mise à jour de CRM, reporting automatisé).
L’API CUA est facturée par appel et par token, séparément de l’abonnement ChatGPT. Consultez la page de tarification OpenAI pour les prix actuels.
Cas d’usage concrets
Recherche et achats en ligne
L’agent compare des prix de vols, de produits, d’hôtels en naviguant sur plusieurs sites simultanément. Il filtre selon vos critères (budget, dates, préférences), compile les résultats, et vous présente les meilleures options. OpenAI a intégré des fonctionnalités shopping directement dans ChatGPT, transformant l’outil en plateforme de commerce.
Remplissage de formulaires et inscriptions
Inscriptions à des événements, formulaires administratifs, candidatures à des emplois (avec vos informations pré-renseignées). L’agent remplit les champs, vérifie les données, et vous demande confirmation avant de soumettre. Un gain de temps considérable pour les tâches administratives répétitives.
Analyse de données et rapports
L’agent peut récupérer des données sur le web, les traiter via son terminal (Python/pandas), et produire un rapport structuré avec tableaux et graphiques. Exemple : « Analyse les performances financières des 5 plus grandes entreprises tech cette année, crée un tableur comparatif et un résumé exécutif en PDF. » L’agent navigue vers les sources financières, extrait les données, et produit les livrables.
Gestion d’emails et de calendrier
Avec les connecteurs Gmail et Google Calendar, l’agent peut résumer votre boîte mail, identifier les messages urgents, trouver des créneaux disponibles pour une réunion, et même préparer des réponses (soumises à votre validation avant envoi).
Tâches récurrentes automatisées
Vous pouvez programmer des tâches pour qu’elles se répètent automatiquement. Exemple : « Chaque lundi matin, génère un rapport de métriques hebdomadaires à partir de nos données Google Analytics et dépose-le dans notre Drive. » L’agent exécute la tâche à l’heure prévue, sans intervention.
Workflows de développement
L’agent peut cloner un dépôt GitHub, exécuter des scripts, analyser des logs, créer des issues, et préparer des pull requests. Combiné avec le terminal et les connecteurs GitHub, c’est un assistant de développement qui ne se limite pas au code mais peut agir sur l’infrastructure.
Sécurité et contrôle utilisateur
Donner à une IA le contrôle d’un navigateur web soulève des questions de sécurité légitimes. OpenAI a implémenté plusieurs garde-fous :
Mode takeover. Pour les informations sensibles (identifiants, mots de passe, numéros de carte bancaire), l’agent vous demande de prendre le contrôle du navigateur. Pendant ce temps, il ne capture aucune donnée ni capture d’écran. Vous entrez vos identifiants vous-même, puis rendez le contrôle à l’agent.
Confirmations utilisateur. Avant toute action conséquente (envoi d’email, validation de commande, soumission de formulaire), l’agent demande votre approbation explicite.
Limitations de tâches. L’agent refuse les tâches sensibles comme les transactions bancaires ou les décisions à fort enjeu (décisions RH, par exemple).
Mode surveillance. Sur les sites particulièrement sensibles (email, services financiers), l’agent requiert une supervision rapprochée de vos actions.
Protection contre l’injection de prompts. L’agent est entraîné à résister aux tentatives de manipulation par du contenu malveillant sur les pages web qu’il visite. OpenAI a publié une « system card » détaillant les protections mises en place.
Gestion des données de navigation. Les cookies persistent entre les sessions (comme un navigateur normal). Vous pouvez effacer les données de navigation dans les paramètres de contrôle de données de ChatGPT. Chaque capture d’écran et historique de navigation est stocké dans votre historique de conversation et supprimé quand vous supprimez la conversation.
Limites actuelles
Lenteur relative. Une tâche agent prend entre 5 et 30 minutes, parfois plus pour les workflows complexes. C’est normal : l’agent navigue visuellement, charge des pages, attend des réponses. Ce n’est pas instantané comme un appel API.
CAPTCHAs et anti-bots. De nombreux sites détectent et bloquent les agents automatisés. Quand un CAPTCHA apparaît, l’agent s’arrête et vous demande de le résoudre manuellement via le mode takeover. C’est frustrant mais inévitable avec la technologie actuelle.
Sites bloqués. Certains sites sont inaccessibles à l’agent, soit pour des raisons de performance (Figma, YouTube), soit parce qu’ils bloquent activement les bots (Reddit). La liste des sites accessibles évolue, mais les restrictions sont réelles.
Interfaces complexes. Les calendriers interactifs, les éditeurs de slides, et les interfaces drag-and-drop restent difficiles pour l’agent. Il excelle sur les formulaires, les recherches, et la navigation linéaire, moins sur les interfaces visuellement complexes.
Fenêtre de contexte. Sur les tâches très longues, l’agent peut « oublier » le début de la conversation. Pour les projets complexes, découpez en étapes successives plutôt que de tout demander en une seule instruction.
Quotas limités sur Plus. Avec ~40 tâches agent par mois sur le plan Plus, chaque utilisation doit être réfléchie. Pour un usage quotidien, le plan Pro est recommandé.
Agent Mode vs les alternatives
| Fonctionnalité | ChatGPT Agent Mode | Claude Cowork | Gemini |
|---|---|---|---|
| Navigation web | ✅ (navigateur visuel cloud) | ✅ (navigateur intégré desktop) | ❌ (pas d’agent web) |
| Terminal / code | ✅ | ✅ (via fichiers locaux) | ❌ |
| Connecteurs tiers | Gmail, Drive, Calendar, GitHub, SharePoint | MCP (standard ouvert) | Extensions Google |
| Création de documents | ✅ (tableurs, slides, rapports) | ✅ (fichiers locaux) | Limité |
| Tâches récurrentes | ✅ | ❌ | ❌ |
| Accès | Cloud (fonctionne partout) | App desktop (macOS/Windows) | N/A |
| Score OSWorld | 75% (GPT-5.4) | Non publié | Non publié |
| Accès minimum | Plus ($20/mois) | Pro ($20/mois) | N/A |
Verdict : ChatGPT Agent Mode est le plus complet pour les tâches web autonomes : navigation visuelle, terminal, connecteurs tiers, tâches récurrentes, tout dans le cloud. Claude Cowork excelle sur les tâches desktop locales (manipulation de fichiers, automatisation de workflows sur votre machine), mais nécessite l’installation de l’app desktop. Les deux approches sont complémentaires. Gemini n’a pas encore d’agent comparable. Pour les agents de code spécifiquement, Claude Code et Codex (OpenAI) sont des alternatives plus spécialisées.
5 astuces pour des résultats optimaux
1. Soyez précis dans vos instructions. « Réserve un vol Paris-Tokyo en décembre, départ le 15, retour le 22, budget max 800€, direct si possible » fonctionne infiniment mieux que « Trouve-moi un vol pour le Japon ». Plus vous donnez de contraintes, meilleur est le résultat.
2. Collaborez en temps réel. Ne lancez pas une tâche et disparaissez. Surveillez la progression, apportez des clarifications quand l’agent les demande, et redirigez si nécessaire. L’agent est conçu pour un workflow collaboratif, pas pour une exécution totalement autonome.
3. Découpez les tâches complexes. Plutôt que « Organise mon voyage complet au Japon », découpez en étapes : « D’abord, compare les vols Paris-Tokyo du 15 au 22 décembre. Ensuite, on passera aux hôtels. » Cela réduit les erreurs et le risque de perte de contexte.
4. Utilisez les connecteurs pour les données internes. Si votre tâche implique vos emails, votre calendrier, ou vos documents Google Drive, activez les connecteurs correspondants dans les paramètres. L’agent pourra accéder directement à vos données plutôt que de naviguer manuellement vers ces services.
5. Vérifiez toujours les résultats. L’agent est compétent mais pas infaillible. Relisez les emails avant envoi, vérifiez les données des rapports, et confirmez les prix avant de valider une commande. La supervision humaine reste essentielle.
Questions fréquentes
ChatGPT Operator est-il toujours un produit séparé ?
Non. Depuis juillet 2025, Operator a été intégré directement dans ChatGPT sous le nom « Agent Mode ». Le site operator.chatgpt.com a été fermé. Pour accéder aux fonctionnalités d’Operator, ouvrez ChatGPT, sélectionnez « Agent Mode » dans le menu d’outils, ou tapez /agent dans la zone de message. Toutes les capacités d’Operator (navigation web, remplissage de formulaires, etc.) sont disponibles dans cette interface unifiée.
Agent Mode est-il disponible sur le plan gratuit ?
Non. Agent Mode est réservé aux plans payants : Plus ($20/mois), Pro ($200/mois), Team, et Enterprise. Le plan Plus offre environ 40 tâches agent par mois, ce qui peut être limitant pour un usage quotidien. Le plan Pro offre des quotas nettement plus généreux. Le plan gratuit et le plan Go ($8/mois) n’ont pas accès à Agent Mode.
L’agent peut-il faire des achats en ligne à ma place ?
Oui, mais avec des garde-fous. L’agent peut rechercher des produits, comparer les prix, remplir un panier, et naviguer jusqu’à la page de paiement. Pour la saisie des informations de paiement (numéro de carte bancaire, identifiants), il vous demande de prendre le contrôle du navigateur en mode takeover. Il ne capture pas vos informations sensibles. Avant de finaliser toute commande, il vous demande une confirmation explicite.
Quelles sont les différences entre Agent Mode et Deep Research ?
Deep Research reste disponible comme fonctionnalité séparée dans ChatGPT, orientée vers la recherche approfondie et la synthèse d’informations. Agent Mode combine les capacités de Deep Research (recherche web, analyse) avec les capacités d’Operator (navigation interactive, actions sur le web, terminal, création de documents). Si vous avez besoin uniquement de recherche et synthèse, Deep Research suffit. Si vous avez besoin que l’IA agisse (remplir des formulaires, créer des fichiers, interagir avec des sites), utilisez Agent Mode.
Comment Agent Mode se compare-t-il à Claude Cowork ?
Les deux sont des agents IA mais avec des approches différentes. ChatGPT Agent Mode fonctionne dans le cloud : il utilise un navigateur et un ordinateur virtuels chez OpenAI, accessible depuis n’importe quel appareil. Claude Cowork fonctionne sur votre machine locale via l’app desktop Claude (macOS/Windows) : il manipule vos fichiers locaux, navigue dans un navigateur intégré, et interagit avec votre système. Agent Mode est meilleur pour les tâches web autonomes et les workflows cloud. Cowork est meilleur pour la manipulation de fichiers locaux et les workflows desktop. Les Agent Teams de Claude (sous-agents parallèles coordonnés) sont un avantage unique qui n’a pas d’équivalent chez OpenAI.