Temps de réponse entre ta demande et la réponse. Plus la latence est basse, plus l'application est rapide et fluide.
IntermédiaireLa latence mesure le délai entre une action et sa réponse. Quand tu envoies un prompt à Claude, la latence inclut : le temps de réseau (envoi/réception), le temps de traitement (l'IA réfléchit), et le temps de génération (l'IA écrit sa réponse). En web, une latence acceptable est < 200ms pour une page et < 1-2 secondes pour une réponse IA. La latence dépend de : la distance au serveur, la complexité de la demande, la charge du service, et le modèle utilisé (les modèles plus gros sont plus lents).
La latence, c'est le temps d'attente au restaurant entre ta commande et ton plat. Un fast-food (petit modèle, tâche simple) te sert en 2 minutes. Un restaurant gastronomique (gros modèle, tâche complexe) prend 20 minutes, mais le plat est meilleur.
Un chatbot de support a une latence de 5 secondes par réponse. Les utilisateurs abandonnent. Le développeur switch vers un modèle plus rapide (Haiku au lieu d'Opus) pour les questions simples et garde le modèle puissant pour les questions complexes. La latence moyenne passe à 1 seconde.
Tu veux maîtriser ces concepts concrètement ?
LE LABO IA t'apprend à construire, automatiser et vendre avec l'IA.
Découvrir le programme