IA capable de comprendre et générer plusieurs types de contenu : texte, images, audio, vidéo, en même temps.
IntermédiaireL'IA multimodale peut analyser une photo et la décrire en texte, transcrire un audio en notes, ou générer une image à partir d'un prompt textuel. Claude, GPT-4 et Gemini sont multimodaux. C'est un bond par rapport aux IA qui ne traitaient qu'un seul type de données. En pratique, ça signifie que tu peux envoyer un screenshot à l'IA et lui demander de reproduire le design en code, ou donner une photo de tes notes manuscrites pour qu'elle les numérise.
Un chef cuisinier qui sait lire une recette (texte), regarder une vidéo de technique (vidéo), goûter un plat (données sensorielles) et recréer le tout. Avant, les IA ne savaient que lire la recette.
Un architecte d'intérieur envoie la photo d'une pièce à Claude et demande : "Propose-moi 3 aménagements différents avec un budget de 5000 euros." L'IA analyse l'espace, identifie les dimensions approximatives, et propose des solutions concrètes avec des liens vers des meubles.
Tu veux maîtriser ces concepts concrètement ?
LE LABO IA t'apprend à construire, automatiser et vendre avec l'IA.
Découvrir le programme