Un data lake (« lac de données ») est une architecture de stockage à faible coût, hautement scalable et orientée données brutes.
Contrairement aux entrepôts de données (data warehouses), qui imposent un schéma rigide dès l’ingestion, le data lake stocke les données « telles quelles », sans transformation préalable, permettant ainsi une exploration ouverte, des traitements en batch ou en temps réel, et des usages variés : reporting, machine learning, data science, etc.
Il se distingue notamment d’une DMP (Data Management Platform) sur plusieurs points clés :
| Critère | Data Lake | DMP |
|---|---|---|
| Type de données | Données internes brutes, y compris PII (Personally Identifiable Information) | Données anonymisées, non-PII, souvent comportementales (cookies, ID publicitaires) |
| Durée de conservation | Longue (voire illimitée, selon la stratégie de gouvernance) | Courte (généralement 30 à 90 jours, pour des raisons de performance et de conformité) |
| Objectif principal | Analyse approfondie, modélisation, apprentissage machine, reporting stratégique | Ciblage publicitaire en temps réel, segmentation d’audience, activation media |
| Propriété des données | Données propres à l’entreprise (CRM, logs, transactions, etc.) | Données agrégées de tiers ou observées sur le web (souvent tierces ou mutualisées) |
Le stockage de PII dans un data lake exige une gouvernance rigoureuse (chiffrement, accès restreint, anonymisation partielle, traçabilité) pour respecter le RGPD, la CCPA ou d’autres réglementations. Un data lake n’est pas un « tout-est-autorisé » : il doit s’inscrire dans un cadre de data ethics et de data stewardship.
En résumé, le data lake est un socle stratégique pour les organisations engagées dans la data-driven transformation, là où la DMP est un outil opérationnel pour la publicité programmatique.