Reinforcement Learning from Human Feedback : technique pour aligner les réponses de l'IA avec les préférences humaines.
AvancéLe RLHF est la méthode qui rend les LLMs 'utiles et inoffensifs'. Après l'entraînement initial sur du texte, des humains notent des paires de réponses ('laquelle est meilleure ?'). Ces notes servent à entraîner un modèle de récompense, qui à son tour guide le LLM pour produire des réponses plus alignées avec les attentes humaines. C'est grâce au RLHF que Claude refuse de t'aider à faire des choses dangereuses et essaie d'être utile plutôt que de juste prédire du texte. C'est aussi ce qui différencie un modèle brut d'un assistant utilisable.
Le RLHF, c'est comme dresser un chien avec des friandises. Le chien (l'IA) essaie des comportements, et le dresseur (les humains) récompense ceux qui sont bons. Au fil du temps, le chien apprend à se comporter comme le dresseur le souhaite.
Anthropic utilise le RLHF (et des techniques dérivées comme le RLAIF) pour que Claude soit à la fois utile et prudent. Quand tu remarques que Claude te prévient des risques d'un code non sécurisé au lieu de l'écrire silencieusement, c'est le RLHF en action : les humains ont jugé que prévenir est préférable à obéir aveuglément.
Tu veux maîtriser ces concepts concrètement ?
LE LABO IA t'apprend à construire, automatiser et vendre avec l'IA.
Découvrir le programme