La Wayback Machine est un service en ligne gratuit de l’Internet Archive accessible depuis le site web Archive.org qui archive et rend accessible des captures historiques de pages web, permettant de consulter le web tel qu’il existait à différentes dates, y compris après la disparition d’un site.
Lancée en 2001 par l’Internet Archive (fondation à but non lucratif créée en 1996 par Brewster Kahle), la Wayback Machine est la plus grande bibliothèque numérique du web. Elle a archivé plus de 900 milliards de pages à ce jour, grâce à des robots d’indexation automatiques (crawlers) et à des sauvegardes manuelles par les utilisateurs.
Elle fonctionne comme une machine à remonter le temps :
- On entre une URL,
- Un calendrier affiche les dates de capture,
- On clique sur une version pour voir la page telle qu’elle était à ce moment-là.
Ces archives sont précieuses pour :
- retrouver des contenus supprimés (articles, rapports, sites culturels),
- étudier l’évolution d’un site ou d’un discours,
- constituer des preuves numériques (ex. : contenus effacés après une polémique),
- préserver la mémoire du web, un patrimoine immatériel fragile.
Limites à connaître :
- Les pages dynamiques (JavaScript, formulaires, bases de données) sont souvent mal archivées.
- Toutes les pages d’un site ne sont pas archivées.
- Les captures ne sont pas exhaustives : elles dépendent de la fréquence de crawl et des règles
robots.txt. - Les contenus soumis à authentification (ex. : intranets) ne sont jamais archivés.
- Il est courant que, pour des raisons de sécurité, de confidentialité ou de conformité (surtout après des attaques, fuites ou pressions), qu’un administrateur demande le retrait des archives de son site. Une fois cette demande faite, l’Internet Archive applique un blocage persistant, souvent via un fichier
robots.txtou une liste noire interne. Le retrait est quasi définitif, sauf cas exceptionnels. - L’Internet Archive est hébergé aux États-Unis : soumis à la loi américaine (risque de censure ou de saisie).
Alternatives à la Wayback Machine
1. archives.is / archive.ph
- Type : service miroir simple, rapide, sans compte.
- Avantage : excellent pour archiver une page précise en un clic (souvent utilisé par les journalistes).
- Inconvénient : pas de calendrier historique, pas de recherche par domaine, opacité sur la gouvernance.
2. Perma.cc (Harvard, MIT, bibliothèques universitaires)
- Type : archive juridique et académique.
- Avantage : liens permanents et citables, conçus pour les publications scientifiques ou juridiques.
- Inconvénient : réservé aux institutions partenaires (mais certains liens sont publics).
3. WebCite® (anciennement actif, maintenant en veille)
- Statut : service historique, peu fiable aujourd’hui. À éviter pour de nouvelles archives.
4. National Archives (archives nationales)
- Exemples :
- France : Archives nationales – dépôt légal du web
- UE : EU Web Archive
- Canada : Library and Archives Canada – Web Archive
- Avantage : légitimité juridique, sélection thématique rigoureuse, pérennité garantie.
- Inconvénient : accès souvent restreint ou différé (pas en temps réel).
5. ArchiveBox (open source, auto-hébergé)
- Type : outil libre pour créer son propre archiveur web.
- Avantage :
- Capture multi-format (HTML, PDF, screenshot, video, WARC),
- Sauvegarde hors ligne,
- Contrôle total sur les données.
- Inconvénient : nécessite des compétences techniques (Python, Docker).
- Idéal pour les archivistes, journalistes, chercheurs, ou collectifs soucieux de souveraineté.
6. Conifer / Webrecorder (anciennement Rhizome)
- Type : plateforme interactive pour enregistrer des sessions de navigation (pas juste des pages statiques).
- Avantage : archive le comportement interactif (clics, scroll, JS).
- Inconvénient : gratuit mais limité en espace ; version auto-hébergée possible (Webrecorder.io).
7. IPFS + Filecoin (approche décentralisée)
- Type : stockage distribué et immuable.
- Avantage : une fois enregistré, le contenu ne peut pas être supprimé.
- Inconvénient : pas conçu pour le web classique (HTML/JS), nécessite une conversion préalable.
- Cas d’usage : sauvegarde de manifestes, documents statiques, preuves critiques.
Codes couleur de la Wayback Machine
Lorsque vous consultez le calendrier de captures d’un site sur web.archive.org , chaque date est marquée par un cercle coloré. Ces couleurs indiquent l’état technique de la capture à ce moment-là.
Voici ce qu’elles signifient :
| Couleur | Signification | Explication technique | À privilégier ? |
|---|---|---|---|
| Bleu | Capture réussie | La page a été archivée complètement : HTML, images, CSS (dans la mesure du possible). C’est la meilleure qualité d’archive. | Oui – choisissez toujours une date bleue si disponible. |
| Vert | Redirection | La page demandée a renvoyé vers une autre URL (ex. : 301 Moved Permanently ou 302 Found). La capture existe, mais pour l’URL cible, pas l’originale. | À vérifier – la page affichée n’est pas celle que vous pensiez archiver. |
| Orange | Erreur côté client | La page n’existait pas à ce moment-là sur le serveur (erreur 4xx, comme 404 Not Found). L’archive contient une page d’erreur, pas le contenu. | Éviter – vous verrez un message d’erreur, pas le site. |
| Rouge | Erreur côté serveur | Le serveur a échoué à répondre (erreur 5xx, comme 502 Bad Gateway ou 503 Service Unavailable). Aucun contenu récupéré. | À éviter – archive vide ou inutilisable. |