IA multimodale

IA capable de comprendre et générer plusieurs types de contenu : texte, images, audio, vidéo, en même temps.

Intermédiaire

Définition complète

L'IA multimodale peut analyser une photo et la décrire en texte, transcrire un audio en notes, ou générer une image à partir d'un prompt textuel. Claude, GPT-4 et Gemini sont multimodaux. C'est un bond par rapport aux IA qui ne traitaient qu'un seul type de données. En pratique, ça signifie que tu peux envoyer un screenshot à l'IA et lui demander de reproduire le design en code, ou donner une photo de tes notes manuscrites pour qu'elle les numérise.

Analogie pour comprendre

Un chef cuisinier qui sait lire une recette (texte), regarder une vidéo de technique (vidéo), goûter un plat (données sensorielles) et recréer le tout. Avant, les IA ne savaient que lire la recette.

En pratique

Un architecte d'intérieur envoie la photo d'une pièce à Claude et demande : "Propose-moi 3 aménagements différents avec un budget de 5000 euros." L'IA analyse l'espace, identifie les dimensions approximatives, et propose des solutions concrètes avec des liens vers des meubles.

Outils associés

Claude Code ChatGPT

Termes liés

LLM IA générative Token Modèle de fondation

Pour aller plus loin

Guide IA 2026

Questions fréquentes

C'est quoi la différence entre multimodal et multilingue ?

Multimodal = plusieurs types de données (texte, image, audio). Multilingue = plusieurs langues. Un modèle peut être les deux à la fois.

Tous les LLMs sont-ils multimodaux ?

Non. Les premiers LLMs ne comprenaient que le texte. En 2026, les modèles phares (Claude, GPT-4, Gemini) sont multimodaux, mais beaucoup de modèles open-source plus petits restent text-only.