Multimodalité en IA

La multimodalité en IA désigne la capacité d’un modèle d’intelligence artificielle à comprendre, traiter et générer de l’information à partir de plusieurs types de données (modalités) en même temps : texte, image, audio, vidéo, code, capteurs, etc.

Un modèle unimodal comprend seulement du texte (ex. : GPT-3).

Un modèle multimodal comprend texte + image + son (ex. : GPT-4o, Gemini 2.0, Claude 3.5 Sonnet).

Modalités courantes

ModalitéExemple d’usage
TexteAnalyser un article, rédiger un email
ImageDécrire une photo, détecter un objet
AudioTranscrire un discours, reconnaître une émotion
VidéoSuivre un mouvement, résumer une conférence
CodeExpliquer un script, corriger une erreur
CapteursInterpréter des données IoT (température, mouvement)

Les agents autonomes modernes sont souvent multimodaux :
Ils voient (images), lisent (texte), écoutent (audio), et agissent (APIs).
Ex. : un agent de support client analyse une photo du produit défectueux + la description textuelle + le ton vocal de l’audio pour répondre de façon adaptée.

Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.