Token

En traitement du langage naturel (NLP), un « token » est une unité de texte qui est analysée par un modèle de langage.

Un token peut être un mot, une partie de mot ou un caractère, selon la manière dont le texte est segmenté. 

Lorsqu’un modèle de langage, comme ChatGPT, génère du texte, il prédit le prochain token dans la séquence en fonction des tokens précédents.

Cette prédiction de token repose sur des probabilités calculées à partir de vastes ensembles de données textuelles, obtenues en testant l’IA sur des textes immenses où un mot est caché.