AccueilMétiersBlogOutilsGlossaireDécouvrir le programme
Glossaire/Data & infrastructure

Latence

Temps de réponse entre ta demande et la réponse. Plus la latence est basse, plus l'application est rapide et fluide.

Intermédiaire

Définition complète

La latence mesure le délai entre une action et sa réponse. Quand tu envoies un prompt à Claude, la latence inclut : le temps de réseau (envoi/réception), le temps de traitement (l'IA réfléchit), et le temps de génération (l'IA écrit sa réponse). En web, une latence acceptable est < 200ms pour une page et < 1-2 secondes pour une réponse IA. La latence dépend de : la distance au serveur, la complexité de la demande, la charge du service, et le modèle utilisé (les modèles plus gros sont plus lents).

Analogie pour comprendre

La latence, c'est le temps d'attente au restaurant entre ta commande et ton plat. Un fast-food (petit modèle, tâche simple) te sert en 2 minutes. Un restaurant gastronomique (gros modèle, tâche complexe) prend 20 minutes, mais le plat est meilleur.

En pratique

Un chatbot de support a une latence de 5 secondes par réponse. Les utilisateurs abandonnent. Le développeur switch vers un modèle plus rapide (Haiku au lieu d'Opus) pour les questions simples et garde le modèle puissant pour les questions complexes. La latence moyenne passe à 1 seconde.

Outils associés

Claude Code

Termes liés

Cloud API LLM Token

Tu veux maîtriser ces concepts concrètement ?

LE LABO IA t'apprend à construire, automatiser et vendre avec l'IA.

Découvrir le programme

Pour aller plus loin

Claude Code best practices →

Questions fréquentes

Utiliser un modèle plus petit pour les tâches simples, mettre en cache les réponses fréquentes, choisir un serveur proche géographiquement, et optimiser la taille des prompts.
La latence est le temps pour UNE réponse. Le débit est le nombre de réponses par seconde. Tu peux avoir une bonne latence mais un mauvais débit si le serveur est surchargé.