Aller au contenu principal
Accueil Métiers Vidéos Blog Outils Glossaire Voir le programme

IA multimodale

IA capable de comprendre et générer plusieurs types de contenu : texte, images, audio, vidéo, en même temps.

Intermédiaire

Définition complète

L'IA multimodale peut analyser une photo et la décrire en texte, transcrire un audio en notes, ou générer une image à partir d'un prompt textuel. Claude, GPT-4 et Gemini sont multimodaux. C'est un bond par rapport aux IA qui ne traitaient qu'un seul type de données. En pratique, ça signifie que tu peux envoyer un screenshot à l'IA et lui demander de reproduire le design en code, ou donner une photo de tes notes manuscrites pour qu'elle les numérise.

Analogie pour comprendre

Un chef cuisinier qui sait lire une recette (texte), regarder une vidéo de technique (vidéo), goûter un plat (données sensorielles) et recréer le tout. Avant, les IA ne savaient que lire la recette.

En pratique

Un architecte d'intérieur envoie la photo d'une pièce à Claude et demande : "Propose-moi 3 aménagements différents avec un budget de 5000 euros." L'IA analyse l'espace, identifie les dimensions approximatives, et propose des solutions concrètes avec des liens vers des meubles.

Outils associés

Claude CodeChatGPT

Termes liés

LLMIA générativeTokenModèle de fondation

Pour aller plus loin

Questions fréquentes

Multimodal = plusieurs types de données (texte, image, audio). Multilingue = plusieurs langues. Un modèle peut être les deux à la fois.

Non. Les premiers LLMs ne comprenaient que le texte. En 2026, les modèles phares (Claude, GPT-4, Gemini) sont multimodaux, mais beaucoup de modèles open-source plus petits restent text-only.