Data lake

Un data lake (« lac de données ») est une architecture de stockage à faible coût, hautement scalable et orientée données brutes.

Contrairement aux entrepôts de données (data warehouses), qui imposent un schéma rigide dès l’ingestion, le data lake stocke les données « telles quelles », sans transformation préalable, permettant ainsi une exploration ouverte, des traitements en batch ou en temps réel, et des usages variés : reporting, machine learning, data science, etc.

Il se distingue notamment d’une DMP (Data Management Platform) sur plusieurs points clés :

CritèreData LakeDMP
Type de donnéesDonnées internes brutes, y compris PII (Personally Identifiable Information)Données anonymisées, non-PII, souvent comportementales (cookies, ID publicitaires)
Durée de conservationLongue (voire illimitée, selon la stratégie de gouvernance)Courte (généralement 30 à 90 jours, pour des raisons de performance et de conformité)
Objectif principalAnalyse approfondie, modélisation, apprentissage machine, reporting stratégiqueCiblage publicitaire en temps réel, segmentation d’audience, activation media
Propriété des donnéesDonnées propres à l’entreprise (CRM, logs, transactions, etc.)Données agrégées de tiers ou observées sur le web (souvent tierces ou mutualisées)

Le stockage de PII dans un data lake exige une gouvernance rigoureuse (chiffrement, accès restreint, anonymisation partielle, traçabilité) pour respecter le RGPD, la CCPA ou d’autres réglementations. Un data lake n’est pas un « tout-est-autorisé » : il doit s’inscrire dans un cadre de data ethics et de data stewardship.

En résumé, le data lake est un socle stratégique pour les organisations engagées dans la data-driven transformation, là où la DMP est un outil opérationnel pour la publicité programmatique.

Les contenus de définition restent publics. Les ressources (outils, grilles, supports) liées à cette fiche sont disponibles dans l’espace membre.