Latence
Temps de réponse entre ta demande et la réponse. Plus la latence est basse, plus l'application est rapide et fluide.
IntermédiaireDéfinition complète
La latence mesure le délai entre une action et sa réponse. Quand tu envoies un prompt à Claude, la latence inclut : le temps de réseau (envoi/réception), le temps de traitement (l'IA réfléchit), et le temps de génération (l'IA écrit sa réponse). En web, une latence acceptable est < 200ms pour une page et < 1-2 secondes pour une réponse IA. La latence dépend de : la distance au serveur, la complexité de la demande, la charge du service, et le modèle utilisé (les modèles plus gros sont plus lents).
Analogie pour comprendre
La latence, c'est le temps d'attente au restaurant entre ta commande et ton plat. Un fast-food (petit modèle, tâche simple) te sert en 2 minutes. Un restaurant gastronomique (gros modèle, tâche complexe) prend 20 minutes, mais le plat est meilleur.
En pratique
Un chatbot de support a une latence de 5 secondes par réponse. Les utilisateurs abandonnent. Le développeur switch vers un modèle plus rapide (Haiku au lieu d'Opus) pour les questions simples et garde le modèle puissant pour les questions complexes. La latence moyenne passe à 1 seconde.
Outils associés
Termes liés
Pour aller plus loin
Questions fréquentes
Utiliser un modèle plus petit pour les tâches simples, mettre en cache les réponses fréquentes, choisir un serveur proche géographiquement, et optimiser la taille des prompts.
La latence est le temps pour UNE réponse. Le débit est le nombre de réponses par seconde. Tu peux avoir une bonne latence mais un mauvais débit si le serveur est surchargé.