Modèle de langage

Définitions Digital > Modèle de langage

Un modèle de langage est un programme d’intelligence artificielle entraîné à comprendre et à produire du langage humain.

Il apprend en lisant énormément de textes (livres, articles, code, etc.), puis prédit ce qui vient après dans une phrase ce qui lui permet de répondre, rédiger, traduire ou discuter comme s’il “connaissait” le langage.

Les différents types de modèles de langage (par génération et architecture)

1. Modèles traditionnels (pré-2018)

Exemples : n-grammes, HMM
Fonctionnement : statistiques simples (ex. : “après bonjour, on dit souvent monsieur”)
Limites : pas de compréhension du sens, mémoire très courte

2. Modèles basés sur les Transformers (depuis 2017)

Révolution grâce au papier “Attention Is All You Need”
Permettent de traiter le contexte global d’une phrase, pas juste les mots voisins.

Avant 2017, les IA qui comprenaient le langage (comme Siri ou les premiers chatbots) lisaient les phrases mot par mot, de gauche à droite, comme si elles n’avaient qu’une mémoire à très court terme.

Exemple :
Pour comprendre « Le chat de ma tante qui vit à Lyon est noir »,
l’IA devait deviner au fur et à mesure à qui on parlait…
Et souvent, elle se trompait.

L’idée géniale du papier : Et si l’IA pouvait relire toute la phrase EN ENTIER… et décider, à chaque mot, à quels autres mots elle doit vraiment faire attention ?

C’est ce qu’on appelle le mécanisme d’attention.

Dans la phrase « Le chat de ma tante qui vit à Lyon est noir »,
le mot « qui » doit “faire attention” à « tante », pas à « chat ».
Le mot « noir » doit “faire attention” à « chat », pas à « Lyon ».

L’IA pèse les liens entre tous les mots, même s’ils sont éloignés.
C’est comme si elle avait des flèches invisibles entre les mots qui se parlent.

Modèles pré-entraînés (base)

BERT (Google) : excellent pour comprendre le texte (ex. : répondre à des questions)
GPT (1, 2, 3, 3.5, 4) (OpenAI) : excellent pour générer du texte (ex. : écrire un email, un poème)

Modèles open source

Llama 3, Llama 3.1 (Meta) : très puissants, utilisables localement
Mistral, Mixtral (Mistral AI, France) : rapides, efficaces, respectueux de la vie privée
Phi-3 (Microsoft) :petit, léger, mais performant (idéal pour mobile ou local)

Modèles spécialisés

Claude (Anthropic) : orienté raisonnement éthique, longs textes
Gemini (Google) : multimodal (texte + image + son)
Perplexity / Grok / Qwen : optimisés pour recherche, codage, ou dialogue

Deux grandes familles selon l’usage

Type	Objectifs	Exemples
Encodeur-only	Comprendre, classer, analyser	BERT, RoBERTa
Décodeur-only	Générer, écrire, converser	GPT, Llama, Mistral

Les modèles génératifs (comme ChatGPT, Claude, ou Dia) sont presque tous des décodeurs.