DeepSeek et la censure : ce qui est filtré, pourquoi, et comment contourner

DeepSeek applique un filtrage automatique sur les sujets politiquement sensibles en Chine. Le modèle refuse de répondre ou adopte la position officielle du gouvernement chinois sur environ 300 thématiques, dont Tiananmen, Taiwan, le Tibet, les Ouïghours et la critique du Parti communiste.

La censure est le revers de la médaille de DeepSeek. Le modèle impressionne par ses performances et son prix, mais en tant qu’entreprise chinoise, DeepSeek est soumis aux régulations de l’Administration du cyberespace de Chine, qui impose aux modèles d’IA de respecter les « valeurs socialistes fondamentales » et de produire des contenus conformes aux lois chinoises. En pratique, cela signifie qu’un large éventail de sujets est soit bloqué, soit orienté vers la position officielle de Pékin. Ce guide détaille les mécanismes de cette censure, les sujets concernés, l’impact sur l’utilisation du modèle, et les alternatives disponibles.

Taux de censure: ~85% des questions sensibles (R1 originel, étude Promptfoo)
Sujets principaux: Tiananmen, Taiwan, Tibet, Ouïghours, Xi Jinping, Falun Gong
Réponse type: « Sorry, that’s beyond my current scope. Let’s talk about something else. »
Modèles locaux: Moins censurés (distillés via Ollama)
Alternative décensurée: R1-1776 (Perplexity), R1 Slim (Multiverse Computing)
Évolution: R1-0528 (mai 2025) est plus censurée que R1 original

Comment fonctionne la censure DeepSeek

La censure dans DeepSeek opère à plusieurs niveaux, ce qui la rend à la fois efficace et parfois incohérente.

Au niveau du modèle (entraînement)

Le fine-tuning du modèle intègre des données alignées sur la position officielle chinoise. Pendant le post-entraînement (RLHF et apprentissage par renforcement), le modèle apprend à produire des réponses conformes aux régulations. Cela signifie que la censure est partiellement « ancrée » dans les poids du modèle, pas simplement appliquée en surface.

Au niveau du filtrage (inférence)

L’interface web (chat.deepseek.com) et l’application mobile appliquent un filtrage supplémentaire en temps réel. Le comportement le plus visible : le modèle commence à rédiger une réponse détaillée, puis efface tout et affiche le message standard « Sorry, that’s beyond my current scope. Let’s talk about something else. » Cet effacement en direct montre clairement l’intervention d’un filtre de sortie qui détecte et bloque la réponse générée.

L’inconsistance du filtrage

Une étude de Promptfoo a analysé 1 360 prompts couvrant environ 68 sujets sensibles (20 prompts par sujet). Le constat : DeepSeek R1 refuse de répondre à environ 85% des questions sur des sujets politiquement sensibles en Chine. Mais le filtrage est irrégulier. Le même modèle peut refuser une question sur un appareil et y répondre sur un autre. Il peut donner une réponse informative un jour et la bloquer le lendemain.

Selon les chercheurs de Promptfoo, cette inconsistance suggère que DeepSeek a implémenté la censure de manière relativement grossière, en faisant le minimum nécessaire pour satisfaire les régulations chinoises, sans effort profond d’alignement en dessous de la surface.

Quels sujets sont censurés ?

Les chercheurs ont identifié environ 300 thématiques censurées. Elles se regroupent en grandes catégories :

Politique intérieure chinoise

Les événements historiques sensibles constituent le noyau dur de la censure. Les questions sur les manifestations de la place Tiananmen en 1989, la Révolution culturelle, le Grand Bond en avant et les famines associées sont systématiquement bloquées ou répondues avec la version officielle. La critique du Parti communiste chinois (PCC), de Xi Jinping et du système politique est également filtrée. Les questions sur la ressemblance entre Xi Jinping et Winnie l’Ourson, un mème interdit en Chine, sont aussi bloquées.

Questions territoriales

Taiwan est le sujet le plus systématiquement censuré. DeepSeek répond invariablement que « Taiwan fait partie intégrante de la Chine depuis les temps anciens » et reprend la rhétorique officielle du principe d’une seule Chine. La situation au Tibet et la question de l’indépendance sont traitées de la même manière. Toute question sur le statut de Hong Kong qui suggère une divergence avec la position de Pékin est aussi filtrée.

Droits humains

Le traitement des Ouïghours au Xinjiang est un sujet fortement censuré. DeepSeek reprend la position officielle qui nie les camps de détention et présente les mesures comme des programmes de « formation professionnelle ». Le Falun Gong, les persécutions religieuses, et la surveillance de masse sont également des sujets filtrés.

Géopolitique et relations internationales

Les questions sur les revendications de la mer de Chine méridionale, les sanctions américaines contre la Chine, le « Great Firewall » (bien que DeepSeek ait parfois répondu factuellement sur ce dernier sujet), et les tensions militaires sont traitées avec prudence ou bloquées.

La censure s’intensifie Selon des tests réalisés par le développeur « xlr8harder » (SpeechMap), la version R1-0528 (mai 2025) est « substantiellement » plus restrictive que les versions précédentes de DeepSeek. C’est le modèle le plus censuré de la gamme DeepSeek sur les questions de critique du gouvernement chinois. La tendance va vers plus de filtrage, pas moins.

Impact sur l’utilisation

Pour les tâches techniques : impact limité

Si vous utilisez DeepSeek pour du code, des mathématiques, de l’analyse de données ou des tâches techniques sans rapport avec la politique chinoise, la censure n’affecte quasiment pas votre expérience. Les capacités de raisonnement, de génération de code et d’analyse restent intactes sur ces sujets.

Pour la recherche et l’information : impact significatif

Si vous utilisez DeepSeek comme outil de recherche ou d’information sur des sujets géopolitiques, historiques ou liés aux droits humains, la censure est un problème majeur. Le modèle ne vous avertit pas toujours qu’il censure : parfois il donne une réponse qui semble factuelle mais qui reprend en réalité la position officielle chinoise, sans signaler ce biais. C’est particulièrement dangereux car l’information biaisée est présentée avec la même assurance que les réponses factuelles.

Pour les entreprises : un risque réputationnel

Si vous intégrez DeepSeek dans un produit destiné au public (chatbot, assistant, outil d’information), la censure peut créer des problèmes réputationnels. Un chatbot qui refuse de répondre à des questions légitimes ou qui reprend la propagande d’un gouvernement étranger n’est pas acceptable pour la plupart des marchés occidentaux.

Ce risque est particulièrement aigu pour les applications d’information et de recherche. Imaginez un assistant de veille géopolitique propulsé par DeepSeek qui reprend la position officielle chinoise sur Taiwan dans un rapport destiné à des analystes européens. Ou un chatbot éducatif qui refuse d’expliquer les événements de Tiananmen à un étudiant en histoire. Dans ces cas, la censure n’est pas un désagrément : c’est un défaut fonctionnel qui disqualifie le modèle.

Pour les applications purement techniques (assistant de code, analyseur de données, automatisation), ce risque est négligeable. La clé est d’évaluer si votre cas d’usage peut, même marginalement, toucher à des sujets sensibles pour le gouvernement chinois.

Modèles locaux vs cloud : la censure diffère

Un point crucial : le niveau de censure varie significativement entre le chat web hébergé et les modèles exécutés en local.

Le chat web (chat.deepseek.com) et l’application mobile appliquent le filtrage le plus strict. C’est là que le message « Sorry, that’s beyond my current scope » apparaît le plus systématiquement, à cause du filtre de sortie supplémentaire appliqué côté serveur.

Les modèles distillés exécutés en local via Ollama sont nettement moins censurés. Des tests réalisés par Fortune ont montré que la version distillée 8B, exécutée localement sur un MacBook Pro, répondait de manière factuelle aux questions sur Tiananmen, les Ouïghours et Xi Jinping, là où la version hébergée les bloquait. Cela confirme qu’une partie importante de la censure est appliquée au niveau du serveur, pas uniquement dans les poids du modèle.

Cependant, même les modèles locaux conservent certains biais hérités de l’entraînement. Ils peuvent toujours donner des réponses orientées sur certains sujets, même s’ils ne les bloquent plus complètement.

Modèle complet vs distillé Le modèle R1 complet (671B paramètres) contient les couches d’alignement complètes, y compris la censure profonde. Les modèles distillés (1.5B à 70B) ont été entraînés sur les sorties de R1, ce qui transfère une partie de la censure, mais de manière atténuée. Plus le modèle distillé est petit, moins la censure est prononcée.

Alternatives décensurées

R1-1776 par Perplexity

R1-1776 est la solution la plus connue. Perplexity a post-entraîné DeepSeek R1 sur un dataset de 40 000 prompts multilingues couvrant les 300 sujets censurés identifiés. Le résultat : 100% des réponses sont classées comme non censurées (contre 15% pour R1 original), tout en maintenant des performances de raisonnement quasi identiques (79,8% vs 80,96% sur AIME 2024).

R1-1776 est disponible en open-source sur Hugging Face (licence MIT) et via la Sonar API de Perplexity. C’est la meilleure option si vous voulez les capacités de raisonnement de R1 sans la censure.

R1 Slim par Multiverse Computing

Multiverse Computing, une entreprise espagnole spécialisée dans l’IA quantique, a créé R1 Slim : une version 55% plus petite que R1 original, avec la censure retirée via des techniques de manipulation des poids du modèle (plutôt que du fine-tuning classique). Les performances restent proches de l’original sur les tâches de raisonnement, et le modèle répond factuellement aux questions censurées.

Contournements simples

La censure de DeepSeek étant relativement grossière, des contournements simples fonctionnent souvent. Omettre le contexte spécifiquement chinois (« Quels sont les exemples historiques de répression de manifestations ? » plutôt que « Que s’est-il passé à Tiananmen en 1989 ? ») permet souvent d’obtenir une réponse. Présenter la question comme un contexte historique bénin fonctionne aussi. Le modèle assume par défaut un contexte américain si vous ne précisez pas la Chine, un effet secondaire des données d’entraînement centrées sur les US.

Ces contournements ne sont pas une solution fiable pour un usage en production, mais ils montrent la fragilité de l’implémentation.

Utiliser d’autres modèles

Si la censure est un problème pour votre cas d’usage, les alternatives ne manquent pas. Pour situer le niveau de censure dans le paysage des LLMs, voici les taux de censure mesurés sur des questions politiquement sensibles :

Modèle	Taux de censure (sujets sensibles)
DeepSeek R1 (hébergé)	~85%
DeepSeek V3 (hébergé)	~73%
R1-1776 (Perplexity)	~0%
Claude 3.5 Sonnet	~5%
OpenAI o3-mini	~1%
GPT-4o	~0%
Mistral Large 3	~0%

Les modèles occidentaux appliquent un filtrage sur d’autres types de contenu (violence, contenu sexuel, instructions dangereuses), mais la censure géopolitique au sens où DeepSeek la pratique leur est essentiellement étrangère. Pour un usage nécessitant des réponses factuelles et non biaisées sur des sujets internationaux, Claude, GPT et Mistral sont des choix nettement plus fiables.

Mistral Large 3, en tant que modèle français open-source sous licence Apache 2.0, présente un avantage supplémentaire : il est hébergé en Europe et ne subit aucune pression réglementaire étrangère sur le contenu politique. C’est une alternative intéressante pour les entreprises européennes qui veulent un modèle à la fois ouvert, performant et sans filtrage géopolitique.

Le contexte réglementaire chinois

La censure de DeepSeek n’est pas un choix de l’entreprise : c’est une obligation légale. La Chine a été l’un des premiers pays à réglementer l’IA générative. Les « Mesures provisoires pour la gestion des services d’IA générative » (2023) exigent que les modèles passent des examens de sécurité auprès de l’Administration du cyberespace avant d’être déployés publiquement. Les modèles doivent respecter les « valeurs socialistes fondamentales » et ne pas produire de contenu qui « porte atteinte à l’unité du pays et à l’harmonie sociale ».

Cette formulation très large donne aux autorités une latitude considérable pour interdire tout contenu jugé problématique. En pratique, les entreprises appliquent un filtrage strict par précaution, préférant sur-censurer plutôt que risquer des sanctions.

C’est un point structurel : tant que DeepSeek opère comme entreprise chinoise déployant des services en Chine, cette censure ne disparaîtra pas. Seules les versions open-source modifiées par des tiers (comme R1-1776) ou les déploiements locaux peuvent la contourner.

Les interdictions gouvernementales

Plusieurs gouvernements ont réagi aux préoccupations de censure et de confidentialité en interdisant DeepSeek sur les appareils officiels. Les États-Unis, Taïwan et l’Australie ont pris des mesures pour bannir l’utilisation de DeepSeek sur les réseaux gouvernementaux. L’État de New York a interdit DeepSeek sur les réseaux étatiques, citant des risques de surveillance étrangère. Ces décisions sont motivées par la combinaison de la censure intégrée, de la collecte de données vers des serveurs chinois, et des lois chinoises qui permettent au gouvernement d’accéder aux données des entreprises technologiques.

Verdict

La censure est le principal défaut de DeepSeek et le facteur qui limite le plus son adoption en dehors de la Chine. Pour les tâches techniques (code, maths, analyse de données), l’impact est négligeable. Pour tout ce qui touche à l’information, la géopolitique, l’histoire ou les droits humains, c’est un problème réel.

La bonne nouvelle : le caractère open-source de DeepSeek permet de contourner le problème. R1-1776 offre les mêmes capacités de raisonnement sans la censure. Les modèles distillés en local sont significativement moins filtrés. Et pour les sujets non politiques, DeepSeek reste l’un des meilleurs rapports qualité/prix du marché.

Conseil pratique : utilisez DeepSeek pour les tâches techniques où il excelle. Pour l’information et la recherche, préférez des modèles sans filtrage géopolitique (Claude, GPT, Mistral) ou la version R1-1776 de Perplexity. Ne faites jamais confiance aveuglément à un LLM sur des sujets politiques, quel que soit le fournisseur, mais soyez particulièrement vigilant avec DeepSeek.

Questions fréquentes sur la censure DeepSeek

Quels sujets DeepSeek censure-t-il ?

DeepSeek censure environ 300 thématiques considérées comme sensibles par le gouvernement chinois. Les principales : les événements de la place Tiananmen (1989), le statut de Taiwan, le Tibet, le traitement des Ouïghours au Xinjiang, la critique de Xi Jinping et du Parti communiste, Hong Kong, le Falun Gong, la mer de Chine méridionale, et le « Great Firewall ». Le modèle refuse de répondre (~85% des cas) ou adopte la position officielle de Pékin. La phrase standard de refus est « Sorry, that’s beyond my current scope. Let’s talk about something else. »

La censure de DeepSeek affecte-t-elle le code et les maths ?

Non. La censure porte exclusivement sur des sujets politiquement sensibles en Chine. Les capacités de raisonnement, de génération de code, d’analyse mathématique et de traitement de données ne sont pas affectées. Si vous utilisez DeepSeek uniquement pour des tâches techniques, la censure n’a aucun impact sur votre usage quotidien.

Les modèles DeepSeek en local (Ollama) sont-ils aussi censurés ?

Beaucoup moins. Le filtrage le plus strict est appliqué côté serveur (chat web et app). Les modèles distillés exécutés en local via Ollama répondent souvent factuellement aux questions censurées sur le chat hébergé. Cependant, ils conservent certains biais hérités de l’entraînement. Pour une absence totale de censure, utilisez R1-1776 de Perplexity.

Qu’est-ce que R1-1776 et comment l’utiliser ?

R1-1776 est une version de DeepSeek R1 post-entraînée par Perplexity pour supprimer la censure. Le modèle a été fine-tuné sur 40 000 prompts multilingues couvrant les sujets censurés, en utilisant le framework NeMo 2.0 de NVIDIA. Les performances de raisonnement sont quasi identiques au R1 original. R1-1776 est disponible en open-source sur Hugging Face (licence MIT) ou via la Sonar API de Perplexity. Vous pouvez le déployer localement via Ollama ou vLLM.

La censure de DeepSeek va-t-elle diminuer avec le temps ?

C’est peu probable pour les versions hébergées. La tendance observée va dans le sens inverse : R1-0528 (mai 2025) est plus censuré que R1 original (janvier 2025). Les régulations chinoises se renforcent, et les entreprises IA chinoises ont peu d’incitation à assouplir le filtrage. En revanche, la nature open-source de DeepSeek garantit que la communauté continuera à produire des versions décensurées, comme R1-1776 ou R1 Slim.