Transformer
Architecture de réseau de neurones qui est à la base de tous les LLMs modernes. Inventée en 2017, elle a révolutionné l'IA.
AvancéDéfinition complète
Le Transformer est l'architecture qui a tout changé en IA. Présenté dans le papier 'Attention Is All You Need' (Google, 2017), il résout un problème clé : permettre à l'IA de comprendre les relations entre tous les mots d'un texte simultanément, au lieu de les lire un par un. Le mécanisme central s'appelle 'attention' : l'IA peut se concentrer sur les mots importants peu importe leur position dans le texte. GPT = Generative Pre-trained Transformer. BERT = Bidirectional Encoder Representations from Transformers. Tous les LLMs modernes sont des Transformers.
Analogie pour comprendre
Avant le Transformer, l'IA lisait un texte comme un lecteur qui ne pouvait voir qu'un mot à la fois, en oubliant le début quand il arrivait à la fin. Le Transformer, c'est comme un lecteur avec une vision panoramique : il voit tous les mots en même temps et comprend leurs relations.
En pratique
Quand Claude analyse ton code de 500 lignes, le mécanisme d'attention du Transformer lui permet de comprendre que la variable déclarée à la ligne 10 est utilisée à la ligne 487. Sans cette architecture, l'IA ne pourrait pas maintenir cette cohérence sur de longs textes.
Termes liés
Pour aller plus loin
Questions fréquentes
Il a résolu le problème de la compréhension long-range : comprendre des textes longs en gardant le contexte. C'est ce qui a rendu possibles les LLMs comme GPT-4 et Claude.
Des architectures comme Mamba (State Space Models) émergent, mais en 2026, le Transformer et ses variantes dominent largement le marché des LLMs.