L’edge computing consiste à exécuter l’inférence IA sur des serveurs proches géographiquement de l’utilisateur (« edge nodes »), plutôt que dans un data center centralisé.
Plutôt que d’envoyer une requête à un serveur situé à des milliers de kilomètres, l’inférence est traitée sur un point de présence (PoP) local — par exemple, un serveur de Cloudflare, Fastly ou AWS Local Zones, situé dans la même région que l’utilisateur. Cela réduit drastiquement la latence (souvent < 50 ms), améliore la réactivité et permet des usages en temps réel (voix, vidéo, jeu, assistance contextuelle).
Impact sur l’architecture :
- La distribution globale n’est plus « cloud centralisé », mais décentralisée en périphérie,
- Les schémas deviennent multi-région, low-latency first,
- On optimise non plus seulement le contenu, mais le calcul.
Exemple : un modèle de traduction hébergé sur un edge node à Paris répond en 30 ms à un utilisateur lyonnais, contre 200 ms via un serveur aux États-Unis.