Transformer

Architecture de réseau de neurones qui est à la base de tous les LLMs modernes. Inventée en 2017, elle a révolutionné l'IA.

Avancé

Définition complète

Le Transformer est l'architecture qui a tout changé en IA. Présenté dans le papier 'Attention Is All You Need' (Google, 2017), il résout un problème clé : permettre à l'IA de comprendre les relations entre tous les mots d'un texte simultanément, au lieu de les lire un par un. Le mécanisme central s'appelle 'attention' : l'IA peut se concentrer sur les mots importants peu importe leur position dans le texte. GPT = Generative Pre-trained Transformer. BERT = Bidirectional Encoder Representations from Transformers. Tous les LLMs modernes sont des Transformers.

Analogie pour comprendre

Avant le Transformer, l'IA lisait un texte comme un lecteur qui ne pouvait voir qu'un mot à la fois, en oubliant le début quand il arrivait à la fin. Le Transformer, c'est comme un lecteur avec une vision panoramique : il voit tous les mots en même temps et comprend leurs relations.

En pratique

Quand Claude analyse ton code de 500 lignes, le mécanisme d'attention du Transformer lui permet de comprendre que la variable déclarée à la ligne 10 est utilisée à la ligne 487. Sans cette architecture, l'IA ne pourrait pas maintenir cette cohérence sur de longs textes.

Termes liés

Pour aller plus loin

Guide IA 2026

Questions fréquentes

Pourquoi le Transformer est-il si important ?

Il a résolu le problème de la compréhension long-range : comprendre des textes longs en gardant le contexte. C'est ce qui a rendu possibles les LLMs comme GPT-4 et Claude.

Y a-t-il des alternatives au Transformer ?

Des architectures comme Mamba (State Space Models) émergent, mais en 2026, le Transformer et ses variantes dominent largement le marché des LLMs.