TF-IDF

Acronyme de Term Frequency et Inverse Document Frequency.

L’indicateur Term Frequency calcule la fréquence ou densité d’un mot clé dans un même document pour évaluer son importance.

Calcul : nombre de fois que le mot clé apparaît / nombre de mots.

« Si vous avez une page de 1000 mots sur laquelle votre mot-clé cible apparaît 10 fois, alors la densité de mots-clés de ce terme sera de 1% ; sa fréquence de terme serait de 4.32/9.97=0.43 (si vous utilisez la base de log 2).

Si vous modifiez la page de façon à ce que le mot-clé apparaisse 2 fois plus souvent (20 fois) alors il aura 2 fois la densité du mot-clé original . Sa TF (fréquence de terme) n’augmentera pas autant ; elle sera de 5.32/9.97=0.53 « 

La fréquence inverse des documents d’un terme (idf), évalue la rareté d’un mot, compare l’utilisation des mots-clés d’une page individuelle à celle d’un grand corpus de documents qui contiennent le mot clé. Elle diminue le poids des mots couramment utilisés et augmente le poids du mot clé original.

Calcul : nombre de contenus / nombre de contenus contenant le terme

En 2007 Karbassi introduit la nation de facteur de degré d’importance d’un mot clé dans un contenu, degré non plus défini par sa fréquence mais sa place dans la liste des termes triés par leur fréquence.