Benchmark
Test standardisé pour mesurer et comparer les performances de différents modèles d'IA sur des tâches spécifiques.
AvancéDéfinition complète
Un benchmark est un examen que les modèles d'IA passent pour être comparés objectivement. MMLU teste les connaissances générales, HumanEval teste le code, GSM8K teste les maths. Quand Anthropic annonce que Claude est 'meilleur que GPT-4 sur MMLU', c'est le résultat d'un benchmark. Limites : les benchmarks ne mesurent pas tout (créativité, empathie, utilité réelle), et les modèles peuvent être optimisés spécifiquement pour bien performer sur certains tests sans être meilleurs en pratique.
Analogie pour comprendre
Les benchmarks, c'est comme les examens du bac : ils mesurent certaines compétences de manière standardisée. Un élève peut avoir 18/20 au bac et être mauvais en travail d'équipe. De même, un modèle peut scorer haut sur un benchmark et être moyen en pratique.
En pratique
Un CTO compare Claude et GPT-4 pour son chatbot de support. Au lieu de se fier aux benchmarks marketing, il crée son propre benchmark : 50 questions réelles de ses clients, notées par son équipe. Claude score mieux sur le raisonnement technique, GPT-4 sur l'empathie. Il choisit Claude et ajuste le system prompt pour l'empathie.
Termes liés
Pour aller plus loin
Questions fréquentes
Ça dépend de ton usage. Pour le code : HumanEval, SWE-bench. Pour le raisonnement : MMLU, ARC. Pour le français : il n'existe pas encore de benchmark français de référence. Teste toujours sur TES cas d'usage.
Partiellement. Ils donnent une indication utile, mais les modèles peuvent 'tricher' (être optimisés pour le benchmark). Le meilleur benchmark reste le test sur ton propre cas d'usage.