Dark data – données sombres

Données collectées, stockées et conservées par une organisation mais jamais utilisées à des fins opérationnelles, analytiques ou stratégiques.

Les dark data (« données sombres ») désignent l’ensemble des données inactives qu’une organisation continue de conserver — souvent par habitude, par précaution, ou faute de politique claire de gestion du cycle de vie des données — sans en tirer de valeur.

Elles peuvent provenir de :

  • journaux serveur (logs),
  • formulaires abandonnés,
  • courriels archivés,
  • capteurs IoT non exploités,
  • copies de sauvegarde,
  • fichiers clients non structurés (PDF, scans, etc.).

Ces données restent stockées (sur disques, clouds, bandes), consommant de l’énergie, de l’espace et des ressources, tout en posant des risques :

  • Sécurité : elles peuvent contenir des informations sensibles (RGPD, secrets métier),
  • Coût : stockage, sauvegarde, maintenance,
  • Écologique : empreinte carbone du stockage inutile,
  • Juridique : conservation au-delà des durées légales.

Attention : ne pas confondre avec :

  • Les « dark web data » (données du web caché),
  • Les « orphan data » (données sans propriétaire clair),
  • Les « data shadows » (traces numériques passives laissées en ligne).

Enjeux contemporains :

Dans un contexte de sobriété numérique et de résilience des systèmes d’information, identifier, classer et éliminer les dark data devient une priorité éthique, écologique et économique à l’opposé de la logique d’« on stocke tout, on verra plus tard ».

Bonnes pratiques :

  • Mettre en place une politique de gestion des données (data governance),
  • Réaliser des audits réguliers du stockage,
  • Appliquer le principe de minimisation des données (RGPD),
  • Supprimer ou anonymiser les données inutiles.
Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.