Multimodalité en IA

Définitions Digital > Multimodalité en IA

La multimodalité en IA désigne la capacité d’un modèle d’intelligence artificielle à comprendre, traiter et générer de l’information à partir de plusieurs types de données (modalités) en même temps : texte, image, audio, vidéo, code, capteurs, etc.

Un modèle unimodal comprend seulement du texte (ex. : GPT-3).

Un modèle multimodal comprend texte + image + son (ex. : GPT-4o, Gemini 2.0, Claude 3.5 Sonnet).

Modalités courantes

Modalité	Exemple d’usage
Texte	Analyser un article, rédiger un email
Image	Décrire une photo, détecter un objet
Audio	Transcrire un discours, reconnaître une émotion
Vidéo	Suivre un mouvement, résumer une conférence
Code	Expliquer un script, corriger une erreur
Capteurs	Interpréter des données IoT (température, mouvement)

Les agents autonomes modernes sont souvent multimodaux :
Ils voient (images), lisent (texte), écoutent (audio), et agissent (APIs).
Ex. : un agent de support client analyse une photo du produit défectueux + la description textuelle + le ton vocal de l’audio pour répondre de façon adaptée.

Explorer les thématiques : IA & automatisation

Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.

IA & automatisation

Intelligence artificielle et systèmes autonomes

Multimodalité en IA

Modalités courantes

Plus de publications

Consommation passive

ROM Manager

Artéfact Live (en direct dans Cowork)

Artéfact Claude