Données collectées, stockées et conservées par une organisation mais jamais utilisées à des fins opérationnelles, analytiques ou stratégiques.
Les dark data (« données sombres ») désignent l’ensemble des données inactives qu’une organisation continue de conserver — souvent par habitude, par précaution, ou faute de politique claire de gestion du cycle de vie des données — sans en tirer de valeur.
Elles peuvent provenir de :
- journaux serveur (logs),
- formulaires abandonnés,
- courriels archivés,
- capteurs IoT non exploités,
- copies de sauvegarde,
- fichiers clients non structurés (PDF, scans, etc.).
Ces données restent stockées (sur disques, clouds, bandes), consommant de l’énergie, de l’espace et des ressources, tout en posant des risques :
- Sécurité : elles peuvent contenir des informations sensibles (RGPD, secrets métier),
- Coût : stockage, sauvegarde, maintenance,
- Écologique : empreinte carbone du stockage inutile,
- Juridique : conservation au-delà des durées légales.
Attention : ne pas confondre avec :
- Les « dark web data » (données du web caché),
- Les « orphan data » (données sans propriétaire clair),
- Les « data shadows » (traces numériques passives laissées en ligne).
Enjeux contemporains :
Dans un contexte de sobriété numérique et de résilience des systèmes d’information, identifier, classer et éliminer les dark data devient une priorité éthique, écologique et économique à l’opposé de la logique d’« on stocke tout, on verra plus tard ».
Bonnes pratiques :
- Mettre en place une politique de gestion des données (data governance),
- Réaliser des audits réguliers du stockage,
- Appliquer le principe de minimisation des données (RGPD),
- Supprimer ou anonymiser les données inutiles.