IA multimodale
IA capable de comprendre et générer plusieurs types de contenu : texte, images, audio, vidéo, en même temps.
IntermédiaireDéfinition complète
L'IA multimodale peut analyser une photo et la décrire en texte, transcrire un audio en notes, ou générer une image à partir d'un prompt textuel. Claude, GPT-4 et Gemini sont multimodaux. C'est un bond par rapport aux IA qui ne traitaient qu'un seul type de données. En pratique, ça signifie que tu peux envoyer un screenshot à l'IA et lui demander de reproduire le design en code, ou donner une photo de tes notes manuscrites pour qu'elle les numérise.
Analogie pour comprendre
Un chef cuisinier qui sait lire une recette (texte), regarder une vidéo de technique (vidéo), goûter un plat (données sensorielles) et recréer le tout. Avant, les IA ne savaient que lire la recette.
En pratique
Un architecte d'intérieur envoie la photo d'une pièce à Claude et demande : "Propose-moi 3 aménagements différents avec un budget de 5000 euros." L'IA analyse l'espace, identifie les dimensions approximatives, et propose des solutions concrètes avec des liens vers des meubles.
Outils associés
Termes liés
Pour aller plus loin
Questions fréquentes
Multimodal = plusieurs types de données (texte, image, audio). Multilingue = plusieurs langues. Un modèle peut être les deux à la fois.
Non. Les premiers LLMs ne comprenaient que le texte. En 2026, les modèles phares (Claude, GPT-4, Gemini) sont multimodaux, mais beaucoup de modèles open-source plus petits restent text-only.