Modèle de langage

Un modèle de langage est un programme d’intelligence artificielle entraîné à comprendre et à produire du langage humain.

Il apprend en lisant énormément de textes (livres, articles, code, etc.), puis prédit ce qui vient après dans une phrase ce qui lui permet de répondre, rédiger, traduire ou discuter comme s’il “connaissait” le langage.

Les différents types de modèles de langage (par génération et architecture)

1. Modèles traditionnels (pré-2018)

  • Exemples : n-grammes, HMM
  • Fonctionnement : statistiques simples (ex. : “après bonjour, on dit souvent monsieur”)
  • Limites : pas de compréhension du sens, mémoire très courte

2. Modèles basés sur les Transformers (depuis 2017)

Révolution grâce au papier “Attention Is All You Need”
Permettent de traiter le contexte global d’une phrase, pas juste les mots voisins.

Avant 2017, les IA qui comprenaient le langage (comme Siri ou les premiers chatbots) lisaient les phrases mot par mot, de gauche à droite, comme si elles n’avaient qu’une mémoire à très court terme.

Exemple :
Pour comprendre « Le chat de ma tante qui vit à Lyon est noir »,
l’IA devait deviner au fur et à mesure à qui on parlait…
Et souvent, elle se trompait.

L’idée géniale du papier : Et si l’IA pouvait relire toute la phrase EN ENTIER… et décider, à chaque mot, à quels autres mots elle doit vraiment faire attention ?

C’est ce qu’on appelle le mécanisme d’attention.

  • Dans la phrase « Le chat de ma tante qui vit à Lyon est noir »,
    le mot « qui » doit “faire attention” à « tante », pas à « chat ».
  • Le mot « noir » doit “faire attention” à « chat », pas à « Lyon ».

L’IA pèse les liens entre tous les mots, même s’ils sont éloignés.
C’est comme si elle avait des flèches invisibles entre les mots qui se parlent.

Modèles pré-entraînés (base)

  • BERT (Google) : excellent pour comprendre le texte (ex. : répondre à des questions)
  • GPT (1, 2, 3, 3.5, 4) (OpenAI) : excellent pour générer du texte (ex. : écrire un email, un poème)

Modèles open source

  • Llama 3, Llama 3.1 (Meta) : très puissants, utilisables localement
  • Mistral, Mixtral (Mistral AI, France) : rapides, efficaces, respectueux de la vie privée
  • Phi-3 (Microsoft) :petit, léger, mais performant (idéal pour mobile ou local)

Modèles spécialisés

  • Claude (Anthropic) : orienté raisonnement éthique, longs textes
  • Gemini (Google) : multimodal (texte + image + son)
  • Perplexity / Grok / Qwen : optimisés pour recherche, codage, ou dialogue

Deux grandes familles selon l’usage

TypeObjectifsExemples
Encodeur-onlyComprendre, classer, analyserBERT, RoBERTa
Décodeur-onlyGénérer, écrire, converserGPT, Llama, Mistral

Les modèles génératifs (comme ChatGPT, Claude, ou Dia) sont presque tous des décodeurs.

Modèle de langage et LLM

Modèle de langage : tout système qui prédit ou génère du langage (même simple)

LLM (Large Language Model) : modèle de langage très grand, moderne, généralement basé sur l’architecture Transformer.

Tous les LLM sont des modèles de langage, mais tous les modèles de langage ne sont pas des LLM.

Composants clés du Transformer

  1. Embeddings : transformation des mots en nombres (vecteurs) que la machine comprend.
  2. Positional Encoding : ajout d’information sur l’ordre des mots (car le Transformer ne lit pas séquentiellement).
  3. Couches d’attention : le cœur : chaque mot “regarde” les autres et ajuste son importance.
  4. Réseaux feed-forward : transformation non linéaire pour affiner la compréhension.
  5. Empilement de couches (ex. : 32 dans Llama 3) : plus il y a de couches, plus le modèle “raisonne” en profondeur.
Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.