RLHF

Reinforcement Learning from Human Feedback : technique pour aligner les réponses de l'IA avec les préférences humaines.

Avancé

Définition complète

Le RLHF est la méthode qui rend les LLMs 'utiles et inoffensifs'. Après l'entraînement initial sur du texte, des humains notent des paires de réponses ('laquelle est meilleure ?'). Ces notes servent à entraîner un modèle de récompense, qui à son tour guide le LLM pour produire des réponses plus alignées avec les attentes humaines. C'est grâce au RLHF que Claude refuse de t'aider à faire des choses dangereuses et essaie d'être utile plutôt que de juste prédire du texte. C'est aussi ce qui différencie un modèle brut d'un assistant utilisable.

Analogie pour comprendre

Le RLHF, c'est comme dresser un chien avec des friandises. Le chien (l'IA) essaie des comportements, et le dresseur (les humains) récompense ceux qui sont bons. Au fil du temps, le chien apprend à se comporter comme le dresseur le souhaite.

En pratique

Anthropic utilise le RLHF (et des techniques dérivées comme le RLAIF) pour que Claude soit à la fois utile et prudent. Quand tu remarques que Claude te prévient des risques d'un code non sécurisé au lieu de l'écrire silencieusement, c'est le RLHF en action : les humains ont jugé que prévenir est préférable à obéir aveuglément.

Termes liés

Pour aller plus loin

Guide IA 2026

Questions fréquentes

RLHF rend-il l'IA moins performante ?

C'est un compromis. Le RLHF peut rendre le modèle plus prudent (refuser des requêtes légitimes) ou moins créatif. Les fournisseurs ajustent en permanence cet équilibre entre utilité et sécurité.

RLHF et RLAIF, quelle différence ?

RLHF utilise des humains pour noter les réponses. RLAIF utilise une autre IA pour noter (plus scalable, moins cher). En pratique, les deux sont souvent combinés.