IA : La fête est finie

8 recommandations pour économiser vos tokens

Alban Lorillard · GitHub Copilot · LLM · Productivité

Contexte — Pourquoi ça change tout ?

GitHub Copilot passe à la facturation à l'usage, au token consommé, dès juin.
Les modèles deviennent plus performants, mais aussi plus coûteux.
L'ère de l'expérimentation sans limite est terminée.
Économiser des tokens, c'est aussi moins d'hallucinations, plus d'efficacité et une empreinte énergétique réduite.

Chaque token compte. Littéralement.

Les Tokens

Comprendre la mécanique pour mieux économiser

Qu'est-ce qu'un token ?

Le token est la plus petite unité linguistique analysée par l'IA.
Un mot représente souvent 1 à 2 tokens ; un caractère spécial ou un signe de ponctuation vaut souvent 1 token.
Un même prompt ne produit pas le même nombre de tokens selon le modèle.
Exemple : un même prompt peut coûter 19 tokens sur GPT-5, 35 sur Opus 4.7 et 22 sur Sonnet 4.6.

Plus un modèle est performant, plus il consomme de tokens.

platform.openai.com/tokenizer · claudetokenizer.com · Comparaison des modèles Anthropic

Les tokens d'entrée (Input)

Tout ce qui est envoyé au modèle à chaque requête

Input tokens

Votre prompt, c'est-à-dire la requête actuelle.
Les instructions personnalisées, comme AGENTS.md ou .instructions.md.
L'historique de la conversation.
Le contexte implicite de l'IDE, comme les fichiers ouverts ou l'état Git.
Les sorties des outils, comme le terminal ou les logs.

Dans mon cas, on voit dans l'illustration que Copilot CLI démarre avec 70 000 tokens de contexte avant la première question.

docs.github.com — Copilot CLI context management

À chaque échange, tout le contexte repart

Fenêtre de contexte — remplissage progressif

L'IA n'a aucune mémoire — prompt, historique, fichiers ouverts, logs CLI : tout est renvoyé à chaque requête. La fenêtre se remplit vite.

Les tokens de sortie (Output)

Une fois le contexte envoyé, le LLM produit du contenu — lui aussi facturé.

Output tokens

Le code modifié dans vos fichiers.
Les réponses affichées en console.
Les tokens de réflexion — ce que le modèle "pense" avant de répondre (visible en console) — sont aussi facturés comme output.

Low / Medium / High

Le contexte d'entrée est identique quel que soit le mode.
En mode High, le budget de réflexion est plus grand → plus de tokens de sortie.
Le rapport peut atteindre ×10 entre Low et High.
Pour du renommage, du formatage ou du code trivial : utilisez Low.

Prompt Caching — OpenAI vs Anthropic

Tant que le début de votre prompt reste identique, cette portion peut être servie depuis un cache à tarif très réduit.

🟢 OpenAI — automatique

Aucune activation requise, sans surcoût d'écriture.
Cache hit : −90 % sur les input tokens, −80 % de latence.
TTL : 5–10 min (jusqu'à 1 h en off-peak, 24 h sur GPT-5+).
✅ Les modèles OpenAI dans Copilot CLI / OpenCode en bénéficient par défaut.

🔶 Anthropic — explicite

Activation via cache_control dans l'API (ou "automatic caching" récent).
Écriture facturée ×1,25 — lecture à −90 %.
Les outils CLI sont peu transparents sur l'activation du cache Anthropic.

💡 Structurez toujours : contenu statique en premier (system prompt, instructions, contexte), variable à la fin.

OpenAI — Prompt Caching · Anthropic — Prompt Caching

8 Recommandations

Des actions concrètes pour réduire votre consommation de tokens

Optimiser les outputs CLI

Recommandation 01

RTK et Snip s'intercalent entre vos commandes CLI et votre agent pour réduire immédiatement les sorties inutiles.

rtk ls produit une sortie plus compacte que ls, tout en restant compréhensible.
Ajoutez une instruction globale pour que l'agent utilise les commandes RTK à la place des commandes shell classiques.
Snip applique le même principe en Go, comme alternative plus discrète.

Astuce : créez aussi des scripts npm optimisés pour l'IA dans package.json.

github.com/rtk-ai/rtk

Une instruction globale bien calibrée

Recommandation 02

Un coût fixe par requête — mais un gain sur 100+ sessions.

Fichier :
~/.copilot/copilot-instructions.md

Chargé à chaque prompt → tokens d'entrée fixes, mais réduit les allers-retours et les tokens de sortie.

# Instructions personnelles

## Language
- Réponds toujours en **français**
- Direct et concis, sans fioritures, sans émojis.

## Planification
- Tâche > 2 fichiers → propose un plan via `/plan` et attends ma validation.

## Contrôle Git — règles strictes
- **Ne jamais committer automatiquement.**
- **Ne jamais pusher.** Jamais, sous aucun prétexte.
- Ne jamais exécuter de commande git sans me le signaler.

## Actions interdites sans validation
- Tout déploiement (Terraform, Lambda, infra).
- Tout appel API vers un environnement de production.
- Toute suppression de fichiers ou données.

## Périmètre des modifications
- Reste dans le scope demandé.
- Signale un problème connexe mais ne le corrige pas.

## Gestion des blocages
- Bloqué après 2 tentatives → stop, rends-moi la main.

Compresser les outputs (Caveman)

Recommandation 03

Caveman est une skill installable dans n'importe quel outil IA pour condenser les réponses sans perdre l'essentiel.

Modes : lite, full et ultra, avec des variantes wenyan pour aller encore plus loin.
Gain estimé : environ 75% de tokens en moins sur les sorties.

~75%

de tokens économisés en sortie

Attention : le mode ultra réduit fortement le volume, mais augmente la charge cognitive côté humain.

github.com/JuliusBrussee/caveman

Les bons modèles pour les bonnes tâches

Recommandation 04

Tâches simples

Gemini Flash / Haiku / GPT-4.1 mini

Questions rapides, Q&A, debug ponctuel, reformulation.

Développement courant

Claude Sonnet / GPT-4.1

Le meilleur équilibre entre qualité, vitesse et coût pour coder au quotidien.

Planification complexe

Claude Opus (High)

Utilisez-le pour cadrer le plan, puis déléguez l'exécution à Sonnet.

Biais de rétroaction : corriger = nouveau contexte = nouveaux tokens. ↓ Voir les méthodes

Méthodologie Architecte / Développeur

Recommandation 04

Contre-intuitif mais efficace : utiliser le modèle le plus puissant pour planifier, puis un modèle plus léger pour exécuter.

Architecte — Claude Opus High

Analyse le code, produit un plan précis et détaillé.

Développeur — Claude Sonnet / GPT-4.1

Exécute le plan étape par étape, au moindre coût.

Biais de rétroaction

Un modèle sous-performant produit du code à corriger.

Chaque correction :

Augmente le contexte en entrée
Génère de nouveaux tokens de sortie
Crée un effet boule de neige sur la facture

Mieux vaut payer plus cher le plan que corriger indéfiniment l'exécution.

Socratic Prompting

Recommandation 04

Demandez à l'IA de vous interroger avant d'agir plutôt que de foncer tête baissée.

Comment ça marche ?

Dites à l'IA : "Pose-moi les questions nécessaires pour bien comprendre le besoin avant de proposer quoi que ce soit."
L'IA identifie les zones d'ombre et les hypothèses implicites.
Vous répondez → le plan est bien mieux cadré.

Résultat : moins de corrections, moins de tokens, moins de tokens de réflexion perdus sur des mauvaises pistes.

Exemple d'une skill de type Socratic Prompting pour réaliser un plan.

Mode auto & modèles légers

Recommandation 04

Mode auto (Copilot)

Copilot choisit le meilleur modèle disponible selon l'intégrité du système en temps réel et les performances.

Exclut automatiquement les modèles avec un multiplicateur premium > 1 → pas de mauvaise surprise sur la facture.
−10 % sur le multiplicateur pour les plans payants (Chat, CLI, Cloud Agent).
En CLI : le modèle utilisé est affiché dans le terminal à chaque réponse.
À venir : sélection selon le type de tâche.

Abuser des modèles légers

Maintenez un onglet dédié aux questions simples :

GPT-4.1 mini / Haiku / Gemini Flash
Q&A généraux, reformulation, explication de concept
Aucun contexte projet → très peu de tokens

Ex : un onglet OpenCode permanent sur Gemini Flash (Low) pour tout ce qui n'est pas du code.

docs.github.com — Sélection automatique de modèle

Calibrer les variants (Low / Medium / High)

Recommandation 05

Low

Tâches simples

Formatage, renommage, corrections triviales

×1

tokens sortie (référence)

Medium

Développement courant

Bon équilibre dans la plupart des cas

×3

tokens sortie estimés

High

Analyse complexe

Architecture, analyse de code, plan détaillé

×10

tokens sortie max

En mode High, les tokens de réflexion (invisibles) sont aussi facturés.

MindStudio — Claude Code effort levels explained

MCPs — Activer seulement ce qui est nécessaire

Recommandation 06

Chaque MCP actif ajoute des tokens d'entrée à chaque requête via son catalogue, ses descriptions et ses paramètres.

À éviter

❌ Tous les MCPs activés en permanence
❌ MCPs avec beaucoup de fonctions et de descriptions

Bon réflexe

✅ Activer uniquement pour la tâche en cours
✅ Désactiver après usage
✅ Commande : /mcp disable <service> (Copilot CLI)

Bien utilisés, les MCPs évitent souvent des dumps HTML bruts pour extraire une information.

Gérer les sessions et la compression

Recommandation 07

Quand démarrer une nouvelle session ?

✅ Linters/tests en échec (contexte précédent = inutile)
✅ Au-delà de 2-3 compressions
✅ Tâche sans rapport avec la précédente

Quand continuer la session ?

✅ Plan en cours (contexte précieux)
✅ Correctifs liés au contexte courant
✅ Tests oubliés après développement

Astuce : fournir PLAN.md en début de session propre pour transmettre l'essentiel.

Copilot — Context management

Texte > Images > Médias

Recommandation 08

Speech-to-text

Mouth Coding ? Utilisez Handy (local) avant d'envoyer.

Images / Screenshots

Toujours plus coûteux que le texte — utilisez des MCP dédiés (ex: MCP Figma).

Préférez le texte

Plus précis, moins coûteux, moins de tokens visuels.

Le bon sens s'applique : l'IA traite le texte bien mieux et moins cher.

Conclusion

L'usage économique de l'IA, c'est aussi un usage plus efficace

Ce qu'il faut retenir

Comprendre où vont vos tokens (input, output, cache)
Calibrer modèle + variant selon la complexité
Réduire le contexte : MCPs, instruction globale, sessions propres
Favoriser le texte optimisé (RTK, Caveman, instructions)

Moins de tokens = moins d'hallucinations + moins de coûts + moins d'énergie

Par Alban Lorillard · github.com/rtk-ai/rtk · github.com/JuliusBrussee/caveman · Article Medium