Test standardisé pour mesurer et comparer les performances de différents modèles d'IA sur des tâches spécifiques.
AvancéUn benchmark est un examen que les modèles d'IA passent pour être comparés objectivement. MMLU teste les connaissances générales, HumanEval teste le code, GSM8K teste les maths. Quand Anthropic annonce que Claude est 'meilleur que GPT-4 sur MMLU', c'est le résultat d'un benchmark. Limites : les benchmarks ne mesurent pas tout (créativité, empathie, utilité réelle), et les modèles peuvent être optimisés spécifiquement pour bien performer sur certains tests sans être meilleurs en pratique.
Les benchmarks, c'est comme les examens du bac : ils mesurent certaines compétences de manière standardisée. Un élève peut avoir 18/20 au bac et être mauvais en travail d'équipe. De même, un modèle peut scorer haut sur un benchmark et être moyen en pratique.
Un CTO compare Claude et GPT-4 pour son chatbot de support. Au lieu de se fier aux benchmarks marketing, il crée son propre benchmark : 50 questions réelles de ses clients, notées par son équipe. Claude score mieux sur le raisonnement technique, GPT-4 sur l'empathie. Il choisit Claude et ajuste le system prompt pour l'empathie.
Tu veux maîtriser ces concepts concrètement ?
LE LABO IA t'apprend à construire, automatiser et vendre avec l'IA.
Découvrir le programme