La multimodalité en IA désigne la capacité d’un modèle d’intelligence artificielle à comprendre, traiter et générer de l’information à partir de plusieurs types de données (modalités) en même temps : texte, image, audio, vidéo, code, capteurs, etc.
Un modèle unimodal comprend seulement du texte (ex. : GPT-3).
Un modèle multimodal comprend texte + image + son (ex. : GPT-4o, Gemini 2.0, Claude 3.5 Sonnet).
Modalités courantes
| Modalité | Exemple d’usage |
|---|---|
| Texte | Analyser un article, rédiger un email |
| Image | Décrire une photo, détecter un objet |
| Audio | Transcrire un discours, reconnaître une émotion |
| Vidéo | Suivre un mouvement, résumer une conférence |
| Code | Expliquer un script, corriger une erreur |
| Capteurs | Interpréter des données IoT (température, mouvement) |
Les agents autonomes modernes sont souvent multimodaux :
Ils voient (images), lisent (texte), écoutent (audio), et agissent (APIs).
Ex. : un agent de support client analyse une photo du produit défectueux + la description textuelle + le ton vocal de l’audio pour répondre de façon adaptée.